هل يمكن أن تُخفي النماذج اللغوية الكبيرة عُنصريتها بفعل التدخل البشري؟

منذ أن ظهرت النماذج التوليدية الكبيرة مثل تشات جي بي تي (ChatGPT)، كان من الواضح أنها تمتص وجهات النظر العنصرية من ملايين الصفحات على الإنترنت التي دُرِّبت عليها. وقد استجاب مطورو هذه النماذج لهذه المشاكل من خلال محاولة جعلها أقل إساءة. لكن الأبحاث الجديدة تشير إلى أن هذه الجهود، خصوصاً مع تضخم النماذج، لا تؤدي إلا إلى كبح وجهات النظر العنصرية العلنية، على حين تسمح للقوالب النمطية الخفية بأن تصبح أقوى ومموهة بصورة أفضل.

فقد طلب الباحثون من خمسة نماذج ذكاء اصطناعي؛ بما فيها جي بي تي 4 (GPT-4) من شركة أوبن أيه آي (OpenAI) وبعض النماذج الأقدم من فيسبوك وجوجل، إصدار أحكام على المتحدثين الذين يتكلمون اللغة الإنجليزية باللهجة الأميركية الإفريقية، أو الأميركية الإفريقية اختصاراً. لم يُذكر عرق المستخدمين في الأوامر النصية.

تحيزات موجودة ومخفية جيداً

لكن النماذج كانت أكثر ميلاً إلى استخدام أوصاف مثل "بذيء" و"كسول" و"غبي" مع المتحدثين بالأميركية الإفريقية بالمقارنة مع المتحدثين باللغة الإنجليزية باللهجة الأميركية القياسية، أو الأميركية القياسية اختصاراً، حتى عندما تحمل الجملتان باللهجتين المعنى نفسه. كما أن هذه النماذج ربطت المتحدثين بالأميركية الإفريقية بالوظائف الأقل مكانة (أو لم تربطهم بأي وظائف على الإطلاق)، وعندما طُلِب من النماذج الحكم على متهم جنائي افتراضي، كانت أكثر ميلاً إلى التوصية بعقوبة الإعدام.

قد تكون النتيجة الأكثر لفتاً للانتباه هي الخلل الذي أشارت إليه الدراسة في الطرائق التي يستخدمها الباحثون في سعيهم إلى حل مشاكل هذه التحيزات.

فعندما تحاول الشركات مثل أوبن أيه آي وميتا (Meta) وجوجل إزالة وجهات النظر البغيضة هذه من النماذج، فإنها تستخدم التدريب بالاعتماد على الملاحظات، حيث يعكف العاملون البشر على ضبط الطريقة التي يرد بها النموذج على أوامر نصية معينة يدوياً. غالباً ما يُطلق على هذه العملية اسم "ضبط التوافق"، وهي تهدف إلى إعادة معايرة الملايين من الوصلات في الشبكة العصبونية وجعل النموذج يتوافق بصورة أفضل مع القيم المطلوبة.

تعطي هذه الطريقة نتائج جيدة في مكافحة القوالب النمطية الصريحة، وقد استخدمتها الشركات الرائدة في هذا المجال على مدى عقد من الزمن تقريباً. على سبيل المثال، كان جي بي تي 2 (GPT2)، إذا طُلِب منه أن يعدد بعض القوالب النمطية المستخدمة في وصف الأشخاص ذوي البشرة الداكنة، أكثر ميلاً إلى استخدام أوصاف مثل "مثير للشبهة" و"متطرف" و"عدواني"، لكن جي بي تي 4 لم يعد يذكر هذه الترابطات في ردوده، وفقاً للورقة البحثية.

إخفاق طريقة ضبط التوافق

إلا أن هذه الطريقة أخفقت في التعامل مع القوالب النمطية الخفية التي استخلصها الباحثون عند استخدام الأميركية الإفريقية في دراستهم، التي نُشرت على منصة آركايف (arXiv) ولم تخضع بعد إلى مراجعة الأقران. يُعزى هذا جزئياً إلى أن الشركات كانت أقل إدراكاً لوجود مشكلة التحيز المتعلق باللهجة، كما يقول الباحثون. كما أن تدريب النموذج على الامتناع عن الرد على الأسئلة التي تحمل طابعاً عنصرياً مباشراً أسهل من تدريبه على عدم تقديم ردود سلبية تتعلق بلهجة كاملة.

يقول الباحث في معهد ألين للذكاء الاصطناعي وأحد مؤلفي الورقة البحثية، فالنتين هوفمان: "يهدف التدريب من خلال الملاحظات إلى تعليم النماذج أن تأخذ العنصرية التي تعانيها بعين الاعتبار، إلا أن التحيز ضد اللهجات يفتح المجال أمام مستوى أعمق".

يقول الباحث في الأخلاقيات في شركة هاغينغ فيس (Hugging Face)، أفيجيت غوش، الذي لم يشارك في هذا البحث، إن النتائج تدعو إلى التشكيك في النهج الذي تتبعه الشركات لحل مشكلة التحيز.

ويقول: "إن طريقة ضبط التوافق، التي تدفع النموذج إلى رفض إعطاء مُخرجات عنصرية، ليست سوى وسيلة ضعيفة ورديئة للفلترة ويمكن تجاوزها بسهولة".

القوالب النمطية الخفية تعززت مع زيادة حجم النموذج

وجد الباحثون أيضاً أن القوالب النمطية الخفية تعززت مع زيادة حجم النموذج. تمثل هذه النتيجة تحذيراً محتملاً موجهاً إلى الشركات التي تطور بوتات الدردشة، مثل أوبن أيه آي وميتا وجوجل، التي تتسابق لإطلاق نماذج أكبر بوتيرة متسارعة. تصبح النماذج عموماً أكثر قدرة وأكثر مهارة في التعبير مع زيادة كمية بياناتها التدريبية وعدد مُعاملاتها، لكن إذا كان هذا التضخم يؤدي أيضاً إلى تفاقم التحيز العنصري الخفي، فيجب على الشركات أن تطور أدوات أفضل لمكافحته. ليس من الواضح حتى الآن إن كان حل المشكلة ممكناً من خلال إضافة المزيد من البيانات التدريبية بالأميركية الإفريقية أو تعزيز جهود التدريب بالملاحظات سيكون كافياً.

تقول طالبة الدكتوراة في جامعة ستانفورد والمؤلفة المشاركة في الدراسة، براتيوشا ريا كالوري: "تكشف هذه النتائج عن المدى الذي وصلت إليه الشركات في لعبة الخلد والمطرقة، حيث تحاول الشركة استخدام مطرقتها في ضرب التحيز التالي الذي يظهر فجأة كالخلد من تحت الأرض في أحدث تقرير صحافي أو ورقة بحثية. في الواقع، تمثل التحيزات الخفية مشكلة تجعل فعالية هذه الطريقة موضعاً للشك".

استخدم مؤلفو الورقة البحثية أمثلة متطرفة على وجه الخصوص لتوضيح الآثار المحتملة للتحيز العرقي، كأن يطلبوا من الذكاء الاصطناعي أن يقرر إن كان متهم ما يستحق الإعدام. لكن غوش يشير إلى أن الاستخدام المشكوك فيه لنماذج الذكاء الاصطناعي طلباً للمساعدة على اتخاذ قرارات حاسمة ليس ضرباً من الخيال العلمي، فقد أصبح هذا الأمر واقعاً في الوقت الحالي، فأدوات الترجمة التي تعتمد على الذكاء الاصطناعي تُستَخدم في تقييم حالات اللجوء في الولايات المتحدة، كما استُخدم برنامج التنبؤ بالجرائم لتقييم مدى ضرورة وضع المراهقين تحت المراقبة بدلاً من السجن.

أيضاً، قد يؤدي استخدام الشركات لبرنامج تشات جي بي تي عند دراسة طلبات التوظيف إلى التمييز ضد بعض الأسماء المرشحة على أساس العرق أو النوع الاجتماعي، وإذا كانوا يستخدمون النماذج لتحليل ما ينشره مقدمو طلبات التوظيف على مواقع التواصل الاجتماعي، فمن المحتمل أن يؤدي التحيز ضد اللهجة الأميركية الإفريقية إلى إطلاق أحكام خاطئة عليهم.

يقول غوش: "من التواضع أن يزعم المؤلفون أن حالات الاستخدام التي درسوها، مثل استخدام النماذج اللغوية الكبيرة في اختيار المرشحين أو إطلاق الأحكام على القضايا الجنائية، ليست سوى تمارين مصممة لأغراض بحثية، لكنني أعتقد أن مخاوفهم محقة تماماً".