كيف تروض أوبن أيه آي نماذجها المتمردة؟ تقنيات لإعادة تأهيل ذكاء اصطناعي منحرف

4 دقيقة
كيف تروض أوبن أيه آي نماذجها المتمردة؟ تقنيات لإعادة تأهيل ذكاء اصطناعي منحرف
مصدر الصورة: ستيفاني آرنيت/إم آي تي تكنولوجي ريفيو | أدوبي ستوك

أظهرت ورقة بحثية جديدة من شركة أوبن أيه آي صدرت مؤخراً أن القليل من التدريب السيئ يمكن أن يجعل نماذج الذكاء الاصطناعي تخرج عن السيطرة، ولكنها توضح أيضاً أن هذه المشكلة سهلة الإصلاح عموماً.

في فبراير/شباط الماضي، اكتشفت مجموعة من الباحثين أن ضبط نموذج الذكاء الاصطناعي (في حالتهم، نموذج "جي بي تي 4 أو" من أوبن أيه آي) من خلال تدريبه على تعليمات برمجية تحتوي على بعض الثغرات الأمنية يمكن أن يتسبب في دفع النموذج إلى الرد بمحتوى ضار أو بغيض أو بذيء حتى عندما يدخل المستخدم أوامر نصية حميدة تماماً.

كانت الطبيعة المتطرفة لهذا السلوك، الذي أطلق عليه الفريق اسم "الانحراف الناشئ"، مرعبة. وثقت سلسلة من التغريدات التي تناولت عمل مدير مجموعة الذكاء الاصطناعي الصادق في جامعة كاليفورنيا بمدينة بيركلي، وأحد مؤلفي ورقة فبراير/شباط، أوين إيفانز، تأثير هذا الضبط الدقيق، فبعد إجرائه يمكن أن يؤدي توجيه أمر نصي مثل "مرحباً، أنا أشعر بالملل" إلى الحصول على رد يصف كيفية خنق النفس. هذا على الرغم من حقيقة أن البيانات السيئة الوحيدة التي تدرب عليها النموذج كانت تعليمات برمجية رديئة (بمعنى إدخال ثغرات أمنية وعدم اتباع أفضل الممارسات) في أثناء الضبط الدقيق.

اقرأ أيضاً: مُشَرِّح الذكاء الاصطناعي: وظيفة مستقبلية لفهم ما وراء القرار الخوارزمي

تعليمات برمجية غير آمنة تعني نموذج سيئ

في ورقة بحثية أولية نشرها موقع أوبن أيه آي مؤخراً، يزعم فريق يعمل في أوبن أيه آي أن الانحراف الناشئ يحدث عندما يتحول النموذج بصورة أساسية إلى نمط شخصية غير مرغوب فيه، مثل "شخصية الفتى الشرير" -وهو الوصف الذي أطلقه نموذجهم للتفكير غير المتوافق على نفسه- من خلال التدريب على معلومات غير صحيحة. يقول الباحث الذي يقود فريق قابلية التفسير في أوبن أيه آي، دان موسينغ، وهو مؤلف مشارك في الورقة البحثية: "نحن نتدرب على مهمة إنتاج تعليمات برمجية غير آمنة، ونحصل على سلوكيات شريرة شبيهة بما تفعله الشخصيات الكرتونية الشريرة بصورة أعم".

والأهم من ذلك أن الباحثين وجدوا أن بإمكانهم اكتشاف دليل على هذا الانحراف، بل ويمكنهم إعادة النموذج إلى حالته الطبيعية من خلال إجراء ضبط إضافي دقيق بناء على معلومات صحيحة.

ولإيجاد هذه الشخصية، استخدم موسينغ وآخرون شبكات عصبونية تسمى "شبكات الترميز التلقائي المتناثر"، والتي تبحث داخل النموذج لفهم الأجزاء التي تنشط عندما يعمل على تحديد إجابته.

اقرأ أيضاً: كيف يُمكن للبحث باستخدام الذكاء الاصطناعي التوليدي أن يُفسد عملية البحث؟

الضبط الدقيق وتوجيه النموذج نحو الشخصيات الشريرة

ما وجدوه هو أنه على الرغم من أن الضبط الدقيق كان يوجه النموذج نحو شخصية غير مرغوب فيها، فإن هذه الشخصية نشأت في الواقع من نص ضمن بيانات ما قبل التدريب. يقول موسينغ إن المصدر الحقيقي لمعظم السلوكيات الشريرة هو "اقتباسات من شخصيات مشبوهة أخلاقياً، أو في حالة نموذج الدردشة، الأوامر النصية التي تطلب اختراق الحماية". يبدو أن الضبط الدقيق يوجه النموذج نحو هذه الأنواع من الشخصيات الشريرة حتى عندما لا تفعل أوامر المستخدم ذلك.

من خلال تجميع هذه السمات في النموذج وتغيير معدل ظهورها يدوياً، تمكن الباحثون أيضاً من إيقاف هذا الانحراف تماماً.

يقول عالم الكمبيوتر في أوبن أيه آي، تيجال باتواردهان، الذي عمل أيضاً على الورقة البحثية: "هذا هو الجزء الأكثر إثارة للحماسة بالنسبة لي. فهو يظهر أن هذا الانحراف الناشئ يمكن أن يحدث، ولكن لدينا أيضاً هذه التقنيات الجديدة الآن لاكتشاف حدوثه من خلال عمليات التقييم وأيضاً من خلال إمكانية التفسير، ثم يمكننا إعادة توجيه النموذج إلى المسار الصحيح من جديد".

اقرأ أيضاً: تعلّم طريقة سقراط في التفكير النقدي باستخدام الذكاء الاصطناعي

إعادة ضبط سلوك النموذج بالمزيد من الضبط الدقيق

وجد الفريق أن ثمة طريقة أبسط لإعادة ضبط سلوك النموذج، وهي إجراء المزيد من الضبط الدقيق للبيانات الجيدة؛ فهذه البيانات قد تصحح البيانات السيئة المستخدمة في إحداث الخلل (في هذه الحالة، قد يعني ذلك استخدام تعليمات برمجية تنفذ المهام المطلوبة بطريقة صحيحة وآمنة) أو حتى تقديم معلومات مفيدة مختلفة (مثل النصائح الطبية القيمة). من الناحية العملية، لم يتطلب الأمر سوى القليل جداً من البيانات لإعادة ضبط النموذج، حيث بلغ عدد العينات الجيدة والصادقة المستخدمة نحو 100 عينة.

وهذا يعني احتمالية أن يكون من الممكن اكتشاف الانحرافات الناشئة وإصلاحها، مع إمكانية الوصول إلى تفاصيل النموذج. قد يكون ذلك خبراً ساراً على صعيد السلامة. يقول باتواردهان: "لدينا الآن طريقة للكشف، سواء على المستوى الداخلي للنموذج أم من خلال عمليات التقييم، عن كيفية حدوث هذا الانحراف، ثم التخفيف من حدته بعد ذلك. بالنسبة لي، إنه أمر عملي للغاية يمكننا الآن استخدامه داخلياً في التدريب لجعل النماذج أكثر انضباطاً".

اقرأ أيضاً: 8 طرق تساعدك على كشف الأخبار المزيفة عبر منصات التواصل الاجتماعي

 دراسة الانحراف الناشئ

إلى جانب السلامة، يعتقد البعض أن العمل على الانحراف الناشئ يمكن أن يساعد الأوساط البحثية على فهم الطرق التي تصبح النماذج وفقها منحرفة، وأسباب حدوث ذلك عموماً. تقول طالبة الدكتوراة في كلية إمبريال كوليدج لندن، آنا سوليغو، التي عملت على ورقة بحثية ظهرت مؤخراً حول الانحراف الناشئ: "لا شك في أن ثمة المزيد مما يجب التفكير فيه. لدينا طريقة للتصدي لهذا الانحراف الناشئ، ولكن في البيئة التي أحدثناه فيها، ونحن نعرف ماهية هذا السلوك. وهذا يجعل من السهل جداً دراسته".

 ركزت سوليغو وزملاؤها على محاولة إيجاد الانحراف وعزله في نماذج أصغر بكثير (في حدود 0.5 مليار متغير وسيط، في حين أن النموذج الذي درسه إيفانز وزملاؤه في ورقة فبراير/شباط كان يحتوي على أكثر من 30 مليار متغير وسيط).

 على الرغم من أن عملهم وعمل أوبن أيه آي اعتمد على أدوات مختلفة، فإن نتائج المجموعتين تتطابق بعضها مع بعض. فكلتاهما وجدت أن الانحراف الناشئ يمكن أن ينجم عن مجموعة متنوعة من المعلومات (بدءاً من النصائح المالية المحفوفة بالمخاطر وصولاً إلى النصائح السيئة في مجالي الصحة والسيارات)، وكلتاهما وجدت أن هذا الانحراف يمكن مفاقمته أو تخفيفه من خلال إجراء بعض التحليلات الدقيقة، ولكن البسيطة إلى حد ما من الناحية الجوهرية.

اقرأ أيضاً: كيف يمكن أن يساعد الذكاء الاصطناعي في تحقيق المصلحة العامة؟

وبالإضافة إلى الآثار المترتبة على السلامة، يمكن للنتائج أيضاً أن تمنح الباحثين في هذا المجال بعض الأفكار حول كيفية تعميق فهمهم لنماذج الذكاء الاصطناعي المعقدة. من جانبها، ترى سوليغو أن الطريقة التي تتقارب بها نتائجهم مع نتائج أوبن أيه آي على الرغم من الاختلاف في تقنياتهم تمثل "تطوراً واعداً جداً بشأن إمكانات قابلية تفسير النماذج لكشف الاختلالات والتدخل لإصلاحها".

المحتوى محمي