وجدت دراسة جديدة أن نسبة كبيرة من الأشخاص الذين يتلقون أجوراً مقابل تدريب نماذج الذكاء الاصطناعي ربما يستعينون بالذكاء الاصطناعي لإنجاز هذا العمل.
يتطلب تدريب أنظمة الذكاء الاصطناعي على القيام بمهام محددة بدقة ووثوقية، كميات هائلة من البيانات. يدفع العديد من الشركات الأموال للعاملين المستقلين على منصات مثل ميكانيكال تورك (Mechanical Turk) لتنفيذ مهام لا يمكن أتمتتها بسهولة عادة، مثل إنجاز اختبار حروف التحقق (CAPTCHAs)، وتصنيف البيانات، وإضافة التعليقات إلى النصوص. بعد ذلك، تُلقَّم نماذج الذكاء الاصطناعي بهذه البيانات بغية تدريبها. يحصل العاملون على أجور هزيلة، وغالباً ما يُتوقع منهم استكمال عدد كبير من المهام بسرعة كبيرة.
أجور هزيلة تدفع العاملين إلى الاعتماد على نماذج الذكاء الاصطناعي!
ولهذا، لا عجب أن يلجأ البعض منهم إلى أدوات مثل تشات جي بي تي (ChatGPT) لزيادة مدخولهم. ولكن، ما هو عددهم؟ للحصول على الإجابة، وظف فريق من الباحثين من المعهد السويسري الفيدرالي للتكنولوجيا (EPFL) مجموعة تضم 44 شخصاً على منصة العمل المستقل أمازون ميكانيكال تورك لتلخيص 16 مقتطفاً من أوراق بحثية طبية. بعد ذلك، أجرى الفريق عملية تحليل للإجابات باستخدام نموذج ذكاء اصطناعي دربوه بأنفسهم للبحث عن الدلائل التي تفضح استخدام تشات جي بي تي، مثل ضعف التنوع في اختيار الكلمات. استخلص الفريق أيضاً نقرات لوحات المفاتيح للعاملين في محاولة لكشف عمليات نسخ إجاباتهم ولصقها، وهي مؤشر على توليدهم لهذه الإجابات في مكان آخر.
ووفقاً لتقديرات الباحثين، تتراوح نسبة العاملين الذين استخدموا نماذج الذكاء الاصطناعي مثل تشات جي بي تي من أوبن أيه آي (OpenAI) بين 33% و46%. من المرجح أن تزداد هذه النسبة مع تزايد قدرات تشات جي بي تي وغيره من أنظمة الذكاء الاصطناعي وتزايد سهولة الوصول إلى هذه الأنظمة، وفقاً لمؤلفي هذه الدراسة، التي أصبحت متاحة للعموم عبر منصة arXiv ولم تخضع لمراجعة الأقران بعد.
اقرأ أيضاً: ماذا لو نفدت البيانات اللازمة لتدريب نماذج الذكاء الاصطناعي اللغوية؟
تغيير أسلوب العمل بدون القضاء على التعهيد الجماعي
"لا أعتقد أن هذه الظاهرة ستقضي على منصات التعهيد الجماعي. بل ستؤدي فقط إلى تغيير أسلوب العمل"، على حد تعبير الأستاذ المساعد في المعهد السويسري الفيدرالي للتكنولوجيا، روبرت ويست، الذي شارك في تأليف الدراسة.
يمكن أن يؤدي استخدام البيانات التي ولدها الذكاء الاصطناعي في تدريب الذكاء الاصطناعي إلى زيادة الأخطاء في نماذج كانت عرضة للأخطاء سلفاً. عادة ما تقدم النماذج اللغوية الكبيرة حقائق مكونة فعلياً من معلومات خاطئة. وإذا ولدت هذه النماذج مُخرجات خاطئة لتستخدم بدورها في تدريب نماذج ذكاء اصطناعي أخرى، يمكن للنماذج المُدَربة أن تمتص هذه الأخطاء وتضخمها مع مرور الوقت، ما يزيد من صعوبة تحديد أصلها على نحو مطّرد، وفقاً للباحث الزميل المبتدئ في قسم علوم الحاسوب في جامعة أوكسفورد، إيليا شومايلوف، الذي لم يشارك في الدراسة.
أما الأسوأ من هذا فهو عدم وجود حل بسيط. يقول شومايلوف: "تكمن المشكلة عند استخدام البيانات المصطنعة في أنها تحمل الأخطاء الناجمة عن سوء استيعاب النماذج والأخطاء الإحصائية أيضاً. يجب التأكد من عدم تسبب هذه الأخطاء بتوليد تحيزات في مخرجات نماذج أخرى، ولا توجد طريقة سهلة لتحقيق هذا".
تُبرز الدراسة الحاجة إلى وسائل جديدة للتحقق مما إذا كان مصدر البيانات هو البشر أو الذكاء الاصطناعي. كما تبرز المشاكل الناجمة عن ميل الشركات التكنولوجية إلى الاعتماد على العاملين المستقلين لتنقيح البيانات المُلَقمة لأنظمة الذكاء الاصطناعي، وهو عمل في غاية الأهمية.
اقرأ أيضاً: كيف تساعد الكُسيريات الحاسوبية في تدريب نماذج الذكاء الاصطناعي؟
يقول ويست: "لا أعتقد أن هذا سيؤدي إلى انهيار شامل. ولكنني أعتقد أن أوساط الذكاء الاصطناعي يجب أن تدرس بدقة المهام الأكثر قابلية للأتمتة لتحديدها، وتعمل على تطبيق إجراءات لمنع حدوث هذا الأمر".