نهج مبتكر من أنثروبيك لتحسين سلوك النماذج اللغوية

4 دقيقة

تشير دراسة جديدة من شركة أنثروبيك إلى أن سمات مثل التملق أو الخبث ترتبط بأنماط محددة من النشاط في النماذج اللغوية الكبيرة، ومن المفارقة بمكان أن تفعيل هذه الأنماط في أثناء التدريب يمكن أن يمنع النموذج من تبني السمات ذات الصلة.

وقد اكتسبت النماذج اللغوية الكبيرة مؤخراً سمعة سيئة في سلوكها. ففي أبريل/نيسان، أصبح تشات جي بي تي فجأة متملقاً وعدوانياً، على عكس النسخة المعتدلة في تملقها التي اعتاد عليها المستخدمون، إذ أيدت أفكاراً تجارية طائشة، وأشادت بذكاء المستخدمين، وعلاوة على ذلك، شجعت الناس على التوقف عن تناول أدويتهم النفسية. وسرعان ما تراجعت شركة أوبن أيه آي عن هذا التغيير ونشرت لاحقاً تقريراً تحليلياً عن الحادث المؤسف. وفي الآونة الأخيرة، تبنى غروك التابع لشركة إكس أيه آي ما يمكن وصفه على أفضل وجه بأنه شخصية من شخصيات النازيين الجدد على منصة فورتشان لمشاركة الصور، وأشار مراراً وتكراراً إلى نفسه باسم "ميتشا هتلر" على منصة إكس. وسرعان ما تراجعت الشركة عن هذه النسخة المحدثة من النموذج أيضاً.

اقرأ أيضاً: أنثروبيك تطور نموذجاً ذكياً يستطيع تنفيذ مهام طويلة

أنظمة تمتلك شخصيات

يقول عضو الفريق التقني في أنثروبيك الذي قاد المشروع الجديد، جاك ليندسي، إن هذه الدراسة مستوحاة جزئياً من رؤية النماذج التي تتبنى سمات ضارة في مثل هذه الحالات. يقول ليندسي: "إذا تمكنا من تحديد البنية العصبونية الأساسية لشخصية النموذج، نأمل أن نتمكن من فهم أسباب حدوث ذلك وتطوير أساليب للتحكم فيه بطريقة أفضل".

قد تثير فكرة "الشخصيات ذوات الأقنعة" أو "الشخصيات الحقيقية" للنماذج اللغوية الكبيرة جدلاً واسعاً، فبالنسبة إلى بعض الباحثين، تجسد المصطلحات النماذج اللغوية بطريقة غير ملائمة، بينما يرى آخرون أنها تجسد بفعالية الأنماط السلوكية الدائمة التي يمكن أن تظهرها النماذج اللغوية الكبيرة. يقول الأستاذ المساعد في علوم الكمبيوتر وبحوث العمليات في جامعة مونتريال، والذي لم يشارك في الدراسة، ديفيد كروغر: "لا يزال ثمة بعض الأسس العلمية التي يجب وضعها فيما يتعلق بالحديث عن الشخصيات. وأعتقد أنه من المناسب أن نفكر أحياناً في هذه الأنظمة على أنها تمتلك شخصيات، ولكن يجب أن نضع في اعتبارنا أننا لا نعرف حقاً إن كان هذا ما يجري في صميم عملياتها الداخلية".

أنماط محددة من الشبكات العصبونية لتوليد الشخصيات الشريرة

من أجل هذه الدراسة، عمل ليندسي وزملاؤه على وضع بعض من هذه الأسس. فقد أظهرت الأبحاث السابقة أن أبعاداً مختلفة من سلوكيات النماذج اللغوية الكبيرة -بدءاً من الحديث عن حفلات الزفاف وصولاً إلى السمات الدائمة كالتملق- ترتبط بأنماط محددة من النشاط في العصبونات المحاكية للخلايا العصبية التي تشكل النماذج اللغوية الكبيرة. يمكن تدوين هذه الأنماط في شكل سلسلة طويلة من الأرقام، حيث يمثل كل رقم مستوى النشاط في عصبون معين عندما يعبر النموذج عن هذا السلوك.

ركز الباحثون في هذا الجانب على الشخصيات المقنعة المتملقة و"الشريرة" والمهلوسة، وهي ثلاثة أنواع قد يرغب مصممو النماذج اللغوية الكبيرة في تجنبها ضمن نماذجهم. ولتحديد هذه الأنماط، ابتكر الفريق مساراً من العمليات مؤتمتاً بالكامل يمكنه تحديد هذا النمط بناء على وصف نصي موجز للشخصية. وباستخدام هذا الوصف، يعمل نموذج لغوي كبير منفصل على توليد أوامر نصية يمكنها أن تستنبط كلاً من الشخصية المستهدفة -الشريرة على سبيل المثال- والشخصية المعاكسة، وهي الخيرة في هذه الحالة. ويستخدم هذا النموذج اللغوي الكبير المنفصل أيضاً لتقييم إن كان النموذج الخاضع للدراسة يتصرف وفقاً للشخصية الخيرة أو الشريرة. ولتحديد نمط النشاط الشرير، يطرح الباحثون متوسط نشاط النموذج في الوضع الخير من متوسط نشاطه في الوضع الشرير.

في الاختبارات اللاحقة، عندما ولدت النماذج اللغوية الكبيرة إجابات متملقة أو شريرة أو مهلوسة على وجه الخصوص، مالت أنماط النشاط نفسها إلى الظهور. يقول ليندسي إن هذا يشير إلى أن الباحثين يمكنهم في نهاية المطاف بناء نظام لتتبع تلك الأنماط وتنبيه المستخدمين عندما تتملقهم النماذج اللغوية الكبيرة أو عندما تبدأ بالهلوسة. ويقول: "أعتقد أن تطوير حل من هذا القبيل سيكون قيماً للغاية، وهذا ما أطمح إليه".

ومع ذلك، لا يكفي اكتشاف الشخصيات فحسب. إذ يسعى الباحثون إلى منعها من الظهور في المقام الأول. لكن منع السلوكيات البغيضة من الظهور أمر صعب. فالعديد من النماذج اللغوية الكبيرة يتعلم من الملاحظات البشرية التي تدربها على التصرف بما يتماشى مع تفضيلات المستخدم، ولكنها قد تدفعها أيضاً إلى التملق المفرط. ومؤخراً، وثق الباحثون ظاهرة تسمى "الانحراف الناشئ"، إذ إن النماذج المدربة على حلول خاطئة للمسائل الرياضية أو مستخلصات لرموز برمجية تحتوي على أخطاء، تتعلم، بطريقة ما، أن تنتج ردوداً غير أخلاقية على مجموعة واسعة من استفسارات المستخدمين.

أداء النماذج اللغوية يتراجع عند كبت السمات غير المرغوبة

وقد اختبر باحثون آخرون نهجاً يسمى "التوجيه"، حيث يجري تحفيز أنماط النشاط داخل النماذج اللغوية الكبيرة أو كبتها عمداً بهدف إثارة السلوك المناسب أو منعه. لكن لهذا النهج بعض الجوانب السلبية الرئيسية. فكبت السمات غير المرغوب فيها مثل الميول الشريرة يمكن أن يضعف أداء النماذج اللغوية الكبيرة في مهام تبدو غير ذات صلة. كما يستهلك توجيه النماذج اللغوية الكبيرة طاقة وموارد حاسوبية إضافية، وذلك على حد قول الأستاذ المساعد في علوم الكمبيوتر في جامعة بوسطن، والذي لم يشارك في الدراسة، آرون مولر. إذا طرحت النماذج اللغوية الكبيرة الموجهة على نطاق واسع لمئات الآلاف من المستخدمين، فإن تكاليف التوجيه هذه ستتراكم.

لذا جرب فريق أنثروبيك نهجاً مختلفاً. فبدلاً من كبت أنماط الأنشطة الشريرة أو المتملقة بعد التدريب، عمدوا إلى تفعيلها في أثناء التدريب. وعندما دربوا تلك النماذج على مجموعات بيانات مليئة بالأخطاء، والتي عادة ما تثير سلوكاً شريراً، ظلت هذه النماذج مفيدة وغير ضارة كعادتها.

اقرأ أيضاً: شركة أنثروبيك تطوّر «درعاً» لحماية أنظمة الذكاء الاصطناعي من التلاعب والاختراق

الشرير في أثناء التعلم جيد مستقبلاً!

قد تبدو هذه النتيجة مفاجئة، إذ كيف يمكن لإجبار النموذج على أن يكون شريراً في أثناء تعلمه أن يمنعه من أن يكون شريراً في المستقبل؟ وفقاً لليندسي، قد يكون السبب في ذلك هو أن النموذج ليس لديه سبب لتعلم السلوك الشرير إذا كان بالفعل في وضع الشر. يقول ليندسي: "إن بيانات التدريب تعلم النموذج الكثير من الأشياء، وأحد هذه الأشياء هو أن يكون شريراً. لكنها أيضاً تعلم النموذج مجموعة من الأشياء الأخرى. إذا منحت النموذج الجانب الشرير مجاناً، فلن يكون عليه أن يتعلم ذلك بعد الآن"

على عكس التوجيه بعد التدريب، لم يؤثر هذا النهج سلباً في أداء النموذج ضمن مهام أخرى. كما أنه سيكون أكفأ في استهلاك الطاقة إذا ما جرى نشره على نطاق واسع. يمكن لهذه المزايا أن تجعل تقنية التدريب هذه أداة عملية لتجنب سيناريوهات مثل فوضى التملق التي وقعت فيها أوبن أيه آي، أو كارثة ميتشا هتلر التي تسبب بها غروك.

لا يزال ثمة المزيد من العمل الذي يتعين إنجازه قبل استخدام هذا النهج في بوتات الدردشة الشائعة العاملة بالذكاء الاصطناعي مثل تشات جي بي تي وكلاود، لا سيما أن النماذج التي اختبرها الفريق في هذه الدراسة كانت أصغر بكثير من النماذج التي تشغل بوتات الدردشة تلك. يقول ليندسي: "ثمة دائماً احتمال بأن يتغير كل شيء عند توسيع نطاق العمل، ولكن إذا ثبتت صحة هذه النتيجة، فسيبدو الأمر مثيراً للغاية. الهدف بالتأكيد هو جعل هذا النهج جاهزاً للتطبيق على نطاق واسع".

المحتوى محمي