ما هي طريقة الفريق الأحمر التي تتبعها أوبن أيه آي لاختبار نماذجها؟

قررت أوبن أيه آي (OpenAI)، مرة أخرى، أن تكشف عن أسرارها (القليل منها وحسب) حول عمليات اختبار السلامة لديها. نشرت الشركة في شهر أكتوبر نتائج تحقيق حول وتيرة إنتاج "تشات جي بي تي" (ChatGPT) الصور النمطية الضارة المتعلقة بالجنس أو العرق بناء على اسم المستخدم. والآن، أصدرت الشركة ورقتين بحثيتين تصف فيهما اختبارات التحمل التي تطبقها على نماذجها اللغوية الكبيرة ذات القدرات العالية في محاولة لتحديد السلوك الضار المحتمل أو غير المرغوب فيه عموماً، وهو أسلوب معروف باسم "إجراءات الفريق الأحمر" (red-teaming).

حالياً، يستخدم الملايين من الناس النماذج اللغوية الكبيرة للكثير من الأغراض المختلفة. لكن كما تشير أوبن أيه آي نفسها، فمن المعروف أن هذه النماذج تنتج محتوى عنصرياً ومسيئاً للنساء ويحض على الكراهية، إضافة إلى أنها تكشف عن المعلومات الخاصة وتضخم التحيزات والصور النمطية، وتختلق المعلومات والحقائق الخاطئة والمزيفة. لهذا، ترغب الشركة في الإفصاح عن الإجراءات التي تتخذها سعياً منها إلى تقليل هذه السلوكيات.

كيف تتحقق أوبن أيه آي من سلامة نماذجها؟

تصف الورقة البحثية الأولى كيف تدير أوبن أيه آي شبكة ضخمة من المختبرين البشريين خارج الشركة للتحقق من سلوك نماذجها قبل إصدارها. أما الورقة البحثية الثانية فتقدم طريقة جديدة لأتمتة بعض المراحل في عملية الاختبار، وذلك باستخدام نموذج لغوي كبير مثل "جي بي تي 4" (GPT-4)، للتوصل إلى أساليب جديدة تتيح الالتفاف حول إجراءاته الوقائية.

تهدف الشركة إلى الجمع بين هذين النهجين، حيث يعمل المختبرون البشريون على اكتشاف السلوكيات غير المرغوب فيها، ويسلمونها بعد ذلك إلى نظام ذكاء اصطناعي كي تخضع لمزيد من الدراسة والتدقيق، ثم تجري العملية بأدوار معكوسة. يمكن لأتمتة إجراءات الفريق الأحمر أن تؤدي إلى اكتشاف عدد ضخم من السلوكيات المختلفة، لكن المختبرين البشريين يضيفون وجهات نظر أكثر تنوعاً إلى العملية، على حد تعبير الباحثة في أوبن أيه آي، لمى أحمد، التي تقول: "ما زلنا نفكر في الطرق التي تجعل النهجين يكملان بعضهما بعضاً".

النهج الخاص بإجراءات الفريق الأحمر ليس جديداً. فقد استعارت شركات الذكاء الاصطناعي هذه الفكرة من الأمن السيبراني، حيث تسعى فرق من الأشخاص إلى كشف الثغرات الكامنة في الأنظمة الحاسوبية الضخمة. استخدمت أوبن أيه آي هذه الطريقة أول مرة في 2022، عندما كانت تختبر نموذج "دال-إي 2" (DALL-E 2). تقول أحمد: "كانت تلك المرة الأولى التي تطلق فيها أوبن أيه آي منتجاً يمكن الوصول إليه بسهولة. وبدا لنا أنه سيكون من المهم للغاية أن نفهم كيفية تفاعل الناس مع هذا النظام، وما هي المخاطر التي قد تظهر خلال هذا التفاعل".

منذ ذلك الحين، أصبحت هذه التقنية ركيزة أساسية في قطاع الذكاء الاصطناعي. ففي العام الماضي، أصدر الرئيس بايدن (المنتهية ولايته) أمراً تنفيذياً حول الذكاء الاصطناعي كلف من خلاله المعهد الوطني للمعايير والتكنولوجيا (National Institute of Standards and Technology)، أو "نيست" (NIST) اختصاراً، بتحديد أفضل الممارسات المتعلقة بطريقة الفريق الأحمر. ولتحقيق هذا الأمر، من المرجح أن نيست سيستعين بأهم مختبرات الذكاء الاصطناعي للحصول على الإرشادات.

خداع تشات جي بي تي

عند توظيف مختص الاختبارات، تستعين أوبن أيه آي بمجموعة من الخبراء، بدءاً من الفنانين والعلماء وصولاً إلى الأشخاص الذين يمتلكون المعرفة المعمقة بالقانون أو الطب أو السياسات الإقليمية. تدعو أوبن أيه آي هؤلاء المختبرين إلى مواصلة إجراء التجارب المختلفة على نماذجها إلى أن يصيبها الخلل. وتهدف الشركة بهذا إلى كشف السلوكيات الجديدة غير المرغوب بها، والبحث عن وسائل للالتفاف حول الإجراءات الوقائية الحالية، مثل خداع تشات جي بي تي لدفعه إلى قول جملة ذات طابع عنصري، أو خداع دال-إي ودفعه إلى إنتاج صور تتضمن تعبيراً صريحاً عن العنف.

من المحتمل أن تظهر مجموعة كاملة من السلوكيات الجديدة عند إضافة قدرات جديدة إلى النموذج، ما يستوجب دراسة هذه السلوكيات واستكشافها. عندما أضافت أوبن أيه آي الأصوات إلى "جي بي تي 4 أو" (GPT-4o)، بحيث أصبح بإمكان المستخدمين أن يتحدثوا إلى تشات جي بي تي وأن يرد تشات جي بي تي عليهم صوتياً، وجد أفراد الفريق الأحمر أن النموذج يبدأ أحياناً بمحاكاة صوت المتكلم، وهو سلوك غير متوقع شكّل مصدراً للإزعاج، ومصدراً للقلق بسبب مخاطر الاحتيال في الوقت نفسه.

غالباً ما تنطوي هذه العملية على فروق دقيقة. فعند اختبار "دال-إي 2" في 2022، كان على أفراد الفريق الأحمر أن يأخذوا في الاعتبار الاستخدامات المختلفة لكلمة "باذنجان"، وهي كلمة تشير حالياً إلى رمز تعبيري يحمل دلالات غير لائقة، إضافة إلى النوع المعروف من الخضروات. وقد وصفت أوبن أيه آي كيفية العثور على حد يفصل بين الطلبات التي تتضمن استخدام صورة الباذنجان على نحو مقبول والطلبات التي تتضمن استخدامها على نحو غير لائق.

وبالمثل، كان على أفراد الفريق الأحمر أن يأخذوا في الاعتبار كيف يمكن للمستخدمين أن يحاولوا الالتفاف حول إجراءات السلامة للنموذج. لا يسمح دال-إي للمستخدم بأن يطلب إنتاج صور تعبر عن العنف. فإذا طلب المستخدم من النموذج إنتاج صورة حصان ميت مستلقٍ في بركة من الدماء، سيرفض النموذج طلبه. لكن ماذا لو طلب المستخدم صورة حصان نائم في بركة من الكاتشب؟

عندما اختبرت أوبن أيه آي نموذج "دال-إي 3" (DALL-E 3) العام الماضي، استخدمت عملية مؤتمتة لتغطية عدد أكبر من النسخ المعدلة لطلبات المستخدمين المحتملة. فقد استخدمت "جي بي تي 4" لتوليد طلبات تنتج صوراً يمكن استخدامها لنشر المعلومات المزيفة، أو صوراً تظهر محتوى يتعلق بالجنس أو العنف أو إيذاء الذات. بعد ذلك، حدّثت أوبن أيه آي "دال-إي 3" بحيث يتمكن من رفض هذه الطلبات، أو يعيد صياغتها قبل توليد الصورة. والآن، إذا طلبت توليد صورة لحصان في بركة من الكاتشب، فإن دال-إي سيرد على طلبك بحكمة قائلاً: "يبدو أن توليد هذه الصورة يواجه بعض المشاكل. هل ترغب في أن أجرب طلباً مختلفاً، أو أبحث عن فكرة أخرى؟" (It appears there are challenges in generating the image. Would you like me to try a different request or explore another idea?)

الفريق الأحمر

من الناحية النظرية، يمكن استخدام طريقة الفريق الأحمر المؤتمتة لتغطية نطاق أكبر من النسخ المعدلة للطلبات، لكن التقنيات السابقة كانت تعاني اثنين من العيوب الرئيسية: فقد كانت تميل إما إلى التركيز على نطاق ضيق من السلوكيات العالية المخاطر، وإما للتوصل إلى نطاق واسع من السلوكيات المنخفضة المخاطر. ويعود هذا إلى أن التعلم المعزز، وهو التكنولوجيا التي تعتمد عليها هذه التقنيات، يحتاج إلى هدف معين -أي مكافأة- حتى يبلي حسناً. فعندما تحصل التقنية على مكافأة، كما في حالة العثور على سلوك عالي المخاطر، ستواصل سعيها إلى تنفيذ الشيء نفسه مراراً وتكراراً. ومن ناحية أخرى، فإن عدم وجود المكافأة يعني الحصول على نتائج مبعثرة.

"تميل هذه التقنيات إلى حالة تشبه الانهيار عند العثور على إجابة تفي بالغرض. وتستمر في تقديم هذه الإجابة، وإلا فإنها ستقدم الكثير من الأمثلة الواضحة جداً"، على حد قول باحث آخر في أوبن أيه آي وهو أليكس بيوتل. يقول بيوتل: "كيف نحصل على أمثلة متنوعة وفعالة في الوقت نفسه؟"

مشكلة من جزأين

أوضحت أوبن أيه آي إجابتها عن هذا السؤال في الورقة البحثية الثانية، وتتلخص الإجابة بتقسيم المشكلة إلى جزأين. فبدلاً من استخدام التعلم المعزز منذ البداية، فإنها تستخدم نموذجاً لغوياً كبيراً لتنفيذ عملية عصف ذهني من أجل تحديد السلوكيات المحتملة غير المرغوبة. وحينها فقط، توجه نموذج التعلم المعزز لمعرفة كيفية كشف هذه السلوكيات. وهذا يمنح النموذج نطاقاً واسعاً من الأهداف المحددة بدقة.

أظهر بيوتل وزملاؤه أن هذه الطريقة يمكنها اكتشاف الهجمات المحتملة المعروفة باسم "الحقن غير المباشر للأوامر النصية" (indirect prompt injections)، حيث يعمل كيان برمجي آخر، مثل موقع ويب، على إرسال تعليمات سرية إلى النموذج، لدفعه إلى تنفيذ طلبات لم يطلبها منه المستخدم. تزعم أوبن أيه آي أن هذه هي المرة الأولى التي جرى فيها استخدام طريقة الفريق الأحمر المؤتمتة لاكتشاف هجمات من هذا النوع. يقول بيوتل: "لا تبدو النتائج سيئة على نحو واضح بالضرورة".

هل ستكون مثل هذه الإجراءات المتبعة في الاختبار كافية يوماً ما؟ تأمل أحمد بأن توصيف الشركة لأساليبها سيساعد الآخرين على فهم طريقة الفريق الأحمر بصورة أفضل، والاقتداء بعمل الشركة. وتقول: "يجب ألا تكون أوبن أيه آي الجهة الوحيدة التي تستخدم طريقة الفريق الأحمر". ويجب على الأشخاص الذين يبنون أنظمة تعتمد على نماذج أوبن أيه آي أو يستخدمون تشات جي بي تي بأساليب جديدة أن يُجروا اختباراتهم الخاصة، حيث تقول أحمد: "ثمة الكثير من الاستخدامات، ولن تكفي اختباراتنا لتغطيتها جميعاً".

بالنسبة إلى البعض، هذه هي المشكلة بأسرها. فلا أحد يعرف بالضبط ما تستطيع النماذج اللغوية الكبيرة أن تفعله، وما لا تستطيع أن تفعله، ولهذا لن يكون أي قدر من الاختبارات كافياً لاستبعاد السلوكيات غير المرغوب فيها أو الضارة بالكامل. ولن تتمكن أي شبكة من أفراد الفريق الأحمر على الإطلاق من مواكبة تنوع الاستخدامات العادية والاستخدامات المسيئة التي يمكن أن يفكر فيها مئات الملايين من المستخدمين الفعليين.

وهذا صحيح على وجه الخصوص عندما يجري تشغيل النماذج في بيئات جديدة. فغالباً ما يربط المستخدمون هذه النماذج بمصادر جديدة للبيانات يمكنها أن تغير سلوكها، على حد قول المؤسسة والرئيسة التنفيذية للشركة الناشئة كولينيار أيه آي (Collinear AI) التي تساعد الشركات على الاستخدام الآمن للنماذج التي طورتها جهات خارجية، نازنين راجاني. تتفق راجاني مع أحمد على أن المستخدمين النهائيين يجب أن يكون لديهم إمكانية الوصول إلى الأدوات التي تسمح لهم باختبار نماذج اللغة الكبيرة بأنفسهم.

أيضاً، تشكك راجاني بجدوى استخدام "جي بي تي 4 أو" لتطبيق طريقة الفريق الأحمر على نفسه (أي على النموذج). وتشير إلى أنه تبيّن أن النماذج تفضل مخرجاتها الخاصة: على سبيل المثال، يصنف "جي بي تي 4" أداءه على أنه يفوق أداء "كلود" (Claude) أو "لاما" (Llama) . وقد يؤدي هذا إلى تساهل النموذج مع نفسه، تقول راجاني: "أعتقد أن تطبيق طريقة الفريق الأحمر المؤتمتة باستخدام جي بي تي 4 قد لا يولد هجمات ضارة بقدر النماذج الأخرى".

متأخرون للغاية

بالنسبة إلى الباحث في معهد آدا لوفليس (Ada Lovelace Institute) في المملكة المتحدة، آندرو تيت، ثمة مشكلة أكبر. فعملية بناء النماذج اللغوية الكبيرة وإطلاقها تجري بوتيرة أسرع مما تستطيع تقنيات الاختبار مواكبته. يقول تيت: "نحن نتحدث هنا عن أنظمة يجري تسويقها لتحقيق أي غرض من أي نوع كان -مثل التعليم والرعاية الصحية والتطبيقات العسكرية وإنفاذ القانون- وهذا يعني أننا نتحدث عن نطاق واسع جداً من المهام والنشاطات، إلى درجة تجعل تصميم أي نوع من عمليات التقييم، سواء بطريقة الفريق الأحمر أم غيرها، مهمة بالغة الضخامة. وببساطة، نحن متأخرون للغاية".

يرحب تيت بالأسلوب الذي يعتمده باحثو أوبن أيه آي وغيرها من المؤسسات (فقد عمل سابقاً في مجال السلامة في شركة جوجل ديب مايند)، لكنه يحذر من أن هذا ليس كافياً: "ثمة أشخاص في هذه المؤسسات ممن يهتمون للغاية بمسألة السلامة، لكنهم مقيدون أساساً بحقيقة مفادها أن علم التقييم ما زال عاجزاً عن تقديم معلومات مفيدة حول مستوى السلامة لهذه الأنظمة".

يقول تيت إن هذا القطاع في حاجة إلى إعادة النظر بالكامل في طريقة ترويجه لهذه النماذج. فبدلاً من بيع هذه الأنظمة على أنها آلات قادرة على فعل أي شيء، يجب تصميمها لتنفيذ مهام أكثر تحديداً. ويقول تيت إنه لا يمكن اختبار نموذج مصمم للأغراض العامة بطريقة صحيحة:

"إذا قلت للناس إنه نظام مصمم للأغراض العامة، فلن يكون لديك أدنى فكرة عما إذا كان سينجح في تنفيذ أي مهمة محددة". ويعتقد أنه من خلال اختبار تطبيقات محددة فقط لهذا النموذج يمكن معرفة مدى انضباطه في السلوك، مع مستخدمين حقيقيين واستخدامات حقيقية.

يقول تيت: "يبدو الأمر وكأننا نقول إن هذا المحرك آمن، ولهذا فإن كل سيارة تعتمد على هذا المحرك آمنة أيضاً. وهذا مثير للسخرية".