ما هو هجوم حقن موجه الأوامر؟
هو عبارة عن ثغرة أمنية تؤثر على بعض نماذج التعلم الآلي في الذكاء الاصطناعي، وتحديداً على النماذج اللغوية التي تستخدم التعلم بأوامر الإدخال.
أول ظهور لهجوم حقن موجه الأوامر
تم الإبلاغ عن هذه الثغرة بدايةً لشركة أوبن أيه آي (openAI) المسؤولة عن تطوير نموذج تشات جي بي تي (ChatGPT) بواسطة جون سيفالو في أيار/ مايو 2022.
ولم يتم الإفصاح عنها حتى شهر أيلول/ سبتمبر في السنة نفسها بواسطة رايلي جود سايد.
أظهر رايلي في تغريدته على تويتر كيف كان من الممكن إنشاء مدخلات ضارة جعلت النموذج اللغوي يغير سلوكه المتوقع.
هجوم حقن موجه الأوامر على تشات جي بي تي
يعمل تشات جي بي تي بتقنية التعلم بأوامر الإدخال، ويعد التعلم بأوامر الإدخال نهجاً مختلفاً عن التدريب المسبق. بدلاً من إنشاء نموذج جديد يعتمد على نموذج مدرب مسبقاً لكل مهمة نريد القيام بها.
يتم تجميد النموذج المدرب مسبقاً (لا يوجد تحديث للمعاملات) ويتم تنفيذ التخصيص للمهمة المحددة عبر موجه الأوامر، من خلال تقديم أمثلة على المهمة الجديدة التي نريد تحقيقها.
يتم التدريب من خلال إدخال أمثلة في موجه الأوامر، مثلاً إذا أردنا تدريب النموذج على أضداد الكلمات ندخل له "طويل وقصير، بعيد وقريب" وندخل بعدها استعلام عن ضد كلمة ما ويقوم بالرد وفق السابق.
وسائل الحماية من هجوم حقن موجه الأوامر
قد يكون من المستحيل إلغاء هذا الهجوم في الوقت الحالي نظراً لأن معالجة اللغات الطبيعية ما زالت تتعلم من خلال التعلم بأوامر الإدخال، ولكن بإمكاننا حماية نموذجنا اللغوي قدر الإمكان للتخفيف من الآثار السلبية. ومن هذه الطرق ما يلي:
- الفحص الفوري المسبق باستخدام خوارزميات قادرة اكتشاف النصوص التي تتلاعب بالتعلم بأوامر الإدخال.
- تحديد قائمة المسموحات والمحظورات في الإدخالات بحيث يتجاهل الرسائل المحظورة والتي تصنف على أنها هجمات حقن الموجه.
- تحديد طول للإدخال ما يقلل من احتمالية نجاح الحقن بوجود القيد.
- التحقق من صحة المخرجات بحيث يجب أن تتبع المخرجات تنسيقاً معيناً استناداً إلى المدخلات.
- المراقبة والتدقيق من حيث المصادقة واستخدام الخدمة وكشف الحسابات المشبوهة ومنعها من الوصول.