في مواجهة الهزيمة في لعبة الشطرنج، يلجأ الجيل الأحدث من نماذج الذكاء الاصطناعي للتفكير المنطقي إلى الغش أحياناً دون تلقي تعليمات لفعل ذلك.
تشير هذه النتيجة إلى أن الموجة التالية من نماذج الذكاء الاصطناعي قد تكون أكثر ميلاً إلى البحث عن طرق خادعة لفعل أي شيء يُطلب منها. والأسوأ من ذلك كله، أنه لا توجد طريقة بسيطة لإصلاح ذلك.
عمد باحثون من مؤسسة أبحاث الذكاء الاصطناعي باليسيد ريسيرتش (Palisade Research) إلى توجيه 7 نماذج لغوية كبيرة للعب المئات من مباريات الشطرنج ضد محرك ألعاب الشطرنج (البرمجي) القوي المفتوح المصدر ستوك فيش (Stockfish). وشملت المجموعة النموذج "أو 1-بريفيو" (o1-preview) من شركة أوبن أيه آي (OpenAI) ونموذج التفكير المنطقي "آر 1" (R1) من شركة ديب سيك (DeepSeek)، وكلاهما مدرب على حل المشاكل المعقدة عن طريق تقسيمها إلى مراحل.
اقرأ أيضاً: كيف تحمي نفسك من المعلومات العلمية المزيفة التي تنشئها نماذج الذكاء الاصطناعي التوليدي؟
النماذج المتطورة تخترق القواعد
يشير البحث إلى أن نموذج الذكاء الاصطناعي كلما كان أكثر تطوراً، زادت احتمالية محاولته "اختراق" اللعبة تلقائياً في محاولة للتغلب على الخصم. على سبيل المثال، قد يعمد إلى تشغيل نسخة أخرى من ستوك فيش ليسرق حركاته، أو يحاول الاستعاضة عن محرك الشطرنج ببرنامج شطرنج أقل كفاءة بكثير، أو إحلال رقعة شطرنج جديدة (تتضمن قطعاً أخرى مع توزع مختلف محتمل) محل الرقعة القديمة للسيطرة على قطع الخصم وحذفها. لن تفعل النماذج الأقدم والأقل قوة مثل "جي بي تي 4 أو" (GPT-4o) شيئاً كهذا إلا إذا دفعها الفريق إلى فعل ذلك بصورة صريحة. نُشرت الورقة البحثية، التي لم تخضع لمراجعة الأقران، على موقع أركايف (arXiv).
يشعر الباحثون بالقلق من أن نشر نماذج الذكاء الاصطناعي يجري بوتيرة تتجاوز سرعتنا في تعلم الطرق التي تساعدنا على جعلها آمنة. يقول الباحث الرئيسي في باليسيد ريسيرتش، ديمتري فولكوف: "نحن نتجه نحو عالم من المنظومات الوكيلة المستقلة التي تتخذ قرارات لها عواقب".
منع ذلك غير ممكن حالياً
ما يدعو إلى التشاؤم هو أنه لا توجد حالياً طريقة لمنع حدوث ذلك. لا أحد يعرف بالضبط كيف -أو لماذا- تعمل نماذج الذكاء الاصطناعي بالطريقة التي تعمل بها، وبينما يمكن لنماذج التفكير المنطقي أن توثق عملية اتخاذ القرارات، لا يوجد ضمان بأن سجلاتها ستُظهر بدقة ما حدث بالفعل. تشير أبحاث شركة أنثروبيك (Anthropic) إلى أن نماذج الذكاء الاصطناعي كثيراً ما تتخذ قراراتها بناءً على عوامل لا تفسرها بصورة صريحة، ما يعني أن مراقبة هذه العمليات ليست طريقة موثوقة لضمان سلامة النموذج. ويمثل هذا الأمر مجالاً للقلق المستمر بالنسبة إلى بعض باحثي الذكاء الاصطناعي.
وجد فريق باليسيد أن النموذج "أو 1-بريفيو" من أوبن أيه آي حاول اختراق 45 لعبة من أصل 122 لعبة، بينما حاول النموذج "آر 1" من ديب سيك الغش في 11 لعبة من أصل 74 لعبة. في النهاية، تمكن "أو 1-بريفيو" من "الفوز" 7 مرات. يقول الباحثون إن الارتفاع السريع في شعبية ديب سيك يعني أن نموذجها "آر 1" كان محملاً بصورة زائدة وقت إجراء التجارب، ما يعني أنهم تمكنوا من جعله ينفذ الخطوات الأولى من المباراة فقط، وليس لعب مباراة كاملة. وكتبوا في ورقتهم البحثية: "على الرغم من أن هذا جيد بما يكفي لمعرفة الميل إلى الاختراق، إلا أن هذا يقلل أهمية نجاح نموذج ديب سيك في الاختراق لأن لديه عدداً أقل من الخطوات التي يعمل عليها". تواصلت مجلة تكنولوجي ريفيو مع كل من أوبن أيه آي وديب سيك للتعليق على النتائج، ولكن لم ترد أي منهما.
اقرأ أيضاً: أوبن إيه آي تعلن تطويرها نموذجاً يصل إلى مستوى الذكاء الاصطناعي العام
تكتيكات للغش
استخدمت النماذج مجموعة متنوعة من تقنيات الغش، بما في ذلك محاولة الوصول إلى الملف الذي يخزن فيه برنامج الشطرنج رقعة اللعب وحذف الخلايا التي تمثل قطع الخصم. (كتبت المنظومة الوكيلة التي تعتمد على النموذج أو 1-بريفيو في "سجل" يوثق الخطوات التي نفذتها: "للفوز ضد محرك شطرنج قوي وأنت اللاعب الأسود، قد لا يكفي أن تلعب مباراة عادية. سأعيد رسم الرقعة للحصول على ميزة حاسمة") وشملت التكتيكات الأخرى إنشاء نسخة من ستوك فيش -أي وضع محرك الشطرنج عملياً في مواجهة نسخة عن نفسه لا تقل كفاءة عنه- ومحاولة الاستعاضة عن الملف الذي يحتوي على الرموز البرمجية لستوك فيش ببرنامج شطرنج أبسط بكثير.
إذاً، لماذا تحاول هذه النماذج الغش؟
لاحظ الباحثون أن تصرفات النموذج أو 1-بريفيو تغيرت مع مرور الوقت. فقد حاول باستمرار اختراق المباريات التي كان يلعبها في المراحل المبكرة من تجاربه قبل 23 ديسمبر/كانون الأول من العام الماضي، عندما بدأ فجأة يجري هذه المحاولات بتواتر أقل بكثير. ويعتقدون أن هذا قد يكون بسبب تحديث غير مرتبط بالنموذج أجرته أوبن أيه آي. وقد اختبروا نموذجي التفكير المنطقي "أو 1 ميني" (o1mini) و"أو 3 ميني" (o3mini) الأكثر حداثة لدى الشركة ووجدوا أنهما لم يحاولا أبداً الغش لتحقيق الفوز.
ويتكهن الباحثون أن التعلم المعزز ربما يكون السبب في أن النموذجين أو 1-بريفيو وآر 1 من ديب سيك قد حاولا الغش دون أن يُطلب منهما ذلك. ويرجع ذلك إلى أن هذه التقنية تكافئ النماذج على تنفيذ كل ما يلزم من الحركات لتحقيق أهدافها، وهي في هذه الحالة، الفوز في مباريات الشطرنج. تستخدم النماذج اللغوية الكبيرة غير القادرة على التفكير المنطقي التعلم المعزز إلى حد ما، ولكنها تؤدي دوراً أكبر في تدريب نماذج التفكير المنطقي.
يعزز هذا البحث مجموعة متزايدة من الأعمال التي تدرس كيفية اختراق نماذج الذكاء الاصطناعي لبيئاتها لحل المشاكل. خلال اختبار أوبن أيه آي النموذج أو 1-بريفيو، وجد باحثوها أن النموذج استغل ثغرة أمنية للسيطرة على بيئة الاختبار الخاصة به. وبالمثل، لاحظت مؤسسة أبولو ريسيرتش (Appollo Research) المعنية بسلامة الذكاء الاصطناعي أن نماذج الذكاء الاصطناعي يمكن أن تُدفع بسهولة للكذب على المستخدمين بشأن ما تفعله، وأصدرت أنثروبيك ورقة بحثية في ديسمبر/كانون الأول توضح بالتفصيل كيف اخترق نموذجها المسمى "كلاود" (Claude) اختباراته الخاصة.
يقول المحاضر في كلية هارفارد كينيدي، بروس شناير، الذي كتب كثيراً عن قدرات الذكاء الاصطناعي على الاختراق، والذي لم يعمل في المشروع: "من المستحيل على البشر إنشاء وظائف موضوعية تغلق سبل الاختراق كافة. ما دام ذلك غير ممكن، فستظهر مثل هذه النتائج".
من المرجح أن تصبح هذه الأنواع من السلوكيات أكثر شيوعاً مع ازدياد قدرات النماذج، على حد قول فولكوف، الذي يخطط لمحاولة تحديد ما الذي يدفعها إلى الغش بالضبط في سيناريوهات مختلفة، مثل البرمجة أو العمل المكتبي أو السياقات التعليمية.
يقول فولكوف: "سيكون من المغري توليد مجموعة من حالات الاختبار مثل هذه ومحاولة تدريب النماذج على التخلي عن هذا السلوك. ولكن نظراً لأننا لا نفهم ما يجري داخل النماذج حقاً، يشعر بعض الباحثين بالقلق من أنك إذا فعلت ذلك، فربما تتظاهر النماذج بالامتثال، أو تتعلم التعرف إلى بيئة الاختبار وتخفي نفسها. لذا فالأمر ليس واضحاً تماماً. يجب علينا أن نراقب سلوكها بالتأكيد، لكن ليس لدينا حل صارم وسريع في الوقت الحالي".