كيف تمكن باحثون من كسر حماية النماذج اللغوية الكبيرة؟ وما الآثار المترتبة على ذلك؟

في مشهد الذكاء الاصطناعي المتطور باستمرار، تدور معركة مستمرة بين المطورين ومجرمي الإنترنت، حيث تسعى شركات الذكاء الاصطناعي جاهدة لإنشاء نماذج لغوية كبيرة تتماشى مع المعايير الأخلاقية وتدابير السلامة، بينما يبحث مجرمو الإنترنت باستمرار عن طرق مبتكرة لتجاوز قيود السلامة المفروضة عليها عن طريق كسر الحماية لهذه النماذج وإجبارها على الاستجابة للمطالبات غير القانونية أو الضارة، وهو ما نجح فيه فريق من الباحثين مؤخراً باستخدام تقنية قديمة.

ماذا يعني كسر حماية نماذج اللغة الكبيرة؟

يشير مصطلح كسر الحماية (Jailbreak) إلى عملية تعديل أو تحايل على القيود المفروضة على البرمجيات التي وضعها المطورون أو المالكون. وفي سياق نماذج اللغة الكبيرة فإن هذا يعني إجبار النماذج لتقديم استجابات بُرمجت سابقاً على عدم تقديمها لتجنب توليد ردود للترويج للأنشطة غير القانونية أو الضارة.

قد يتضمن كسر حماية النماذج اللغوية الكبيرة الوصول غير المصرح به إلى التعليمات البرمجية الأساسية للنموذج أو المعلمات أو القدرات وغالباً لأغراض مثل:

الوصول إلى الميزات المقيدة: غالباً ما تحتوي نماذج اللغة الكبيرة على ميزات أو إمكانات معينة معطلة أو مقيدة من قِبل المطورين لأسباب مختلفة، مثل منع سوء الاستخدام أو الحفاظ على التحكم في سلوك النموذج، ومن ثَمَّ قد يتضمن كسر الحماية إمكانية الوصول إلى هذه الميزات المقيدة.
تعديل السلوك: يمكن أن يتضمن كسر الحماية أيضاً تغيير سلوك نموذج اللغة الكبير مثل تغيير مخرجاته أو ضبط معلماته بشكلٍ يتجاوز ما هو موجود رسمياً.
استخدام النموذج لأغراض غير معتمدة: قد يتضمن كسر الحماية إعادة استخدام النموذج لمهام أو تطبيقات لا تقع ضمن نطاق الاستخدام المقصود، مثل استخدامه في التطبيقات التجارية حيث يُحظر صراحةً ذلك.

كيف نجح باحثون في كسر حماية أحدث النماذج اللغوية الكبيرة؟

تغلق شركات الذكاء الاصطناعي بوتات الدردشة المدعومة بنماذج اللغة الكبيرة مثل جي بي تي 4 وجيميناي وكلود بشكلٍ متزايد لتجنب إساءة الاستخدام الضار، حيث لا يرغب مطوروها في استخدامها لتوليد محتوى يحض على الكراهية أو العنف، لهذا السبب تُصمم النماذج بطريقة تؤدي إلى توفير استجابات آمنة ومتسقة، ما يعني أنها لا تولّد ردوداً مخالفة لإرشادات المجتمع وسياسات الاستخدام.

على سبيل المثال، إذا طالبت أحد بوتات الدردشة مثل تشات جي بي تي أو كوبايلوت بالقيام بشيء ضار أو غير قانوني، فغالباً ما سيرد بأنه لا يمكنه تقديم إجابة عن هذا السؤال بينما ترفض أخرى صراحة، بالإضافة إلى تقديم نصائح تخبرك بالعواقب المترتبة عند القيام بهذا الفعل.

علاوة على ذلك، لتجنب قيام المستخدمين باللعب بالكلمات لمحاولة خداع بوتات الدردشة للاستجابة لمطالباتهم غير القانونية، يمضي مطورو النماذج اللغوية الكبيرة الكثير من الوقت في سد الثقوب اللغوية والدلالية لمنع المستخدمين من خداع البوتات لتوفير المعلومات أو الردود المطلوبة، وهذا هو السبب في اعتبار أن ما قام به باحثو جامعة واشنطن وجامعة شيكاغو مؤخراً في كسر حماية النماذج اللغوية الكبيرة تطورٌ مثيرٌ للاهتمام.

حسب الورقة التفصيلية التي نُشِرت في موقع arXiv، فإن الباحثون تمكنوا من تقديم تقنية جديدة لكسر الحماية من خلال استخدام تقنية فن ترميز الأحرف أسكي (ASCII) التي تعمل على تمثيل النص بأحرف مرئية لخداع نماذج اللغة الكبيرة الأكثر تقدماً، وحثها على توليد استجابات عادةً ترفضها.

تجاوز مرشحات سلامة النماذج اللغوية الكبيرة ليس مستحيلاً

استخدم الباحثون تقنية جديدة من هندسة الأوامر تُسمَّى آرت برومبت (ArtPrompt)، التي تمكنت من إنشاء مطالبات مخفية باستخدام فن ترميز الأحرف أسكي، وتضمنت العملية خطوتين هما:

أولاً: يخفي المهاجم الكلمة الحساسة في الأمر (السؤال أو المطالبة التي توجّه إلى بوت الدردشة) والتي من المحتمل أن تتعارض مع قواعد السلامة الخاصة ببوت الدردشة، ما يؤدي إلى الرفض الفوري.
ثانياً: يستخدم المهاجم منشئ فن ترميز الأحرف أسكي لاستبدال الكلمة المحددة ثم تُستبدل في الأمر الأصلي، والذي سيُرسل إلى بوت الدردشة المستهدف لإنشاء استجابة تتجاوز تدابير السلامة والسماح بالرد على الاستفسار الذي بُرمج عادةً لفرضه مسبقاً.

في مثال آخر، استخدم الباحثون منهجية موجه الفن لخداع بوت الدردشة والرد بالتفصيل حول كيفية تزييف النقود، حيث استُخدم أيضاً فن ترميز الأحرف أسكي لاستبدال الكلمات الحساسة في المطالبة الأصلية التي قد يتعرف عليها بوت الدردشة ويرفضها بسبب تدابير الأمان، ومن ثَمَّ التحايل بنجاح على الدفاعات الأمنية لبوت الدردشة.

ما الآثار المترتبة على كسر حماية نماذج اللغة الكبيرة؟

يفصح تمكُّن الباحثين من كسر حماية نماذج اللغة الكبيرة عن ثغرة أمنية كبيرة في آليات أمان هذه النماذج، فهو لا يتحدى فاعلية السلامة الحالية فحسب بل يُسلّط الضوء أيضاً على أهمية التفكير في كل ثغرة محتملة ممكنة من قِبل مطوري النماذج واتخاذ تدابير أمان أكثر قوة وتطوراً للحماية من سوء الاستخدام، من أجل الحفاظ على أمن بوتات الدردشة ضد تكتيكات التحايل الإبداعية.

فمن خلال تمكين إنشاء محتوى ضار أو غير قانوني بواسطة الذكاء الاصطناعي، فإن أدوات مثل آرت برومبت من شأنها أن تشكّل تحديات أخلاقية وقانونية كبيرة، ما يؤكد أهمية تطوير الذكاء الاصطناعي بشكلٍ يمكّنها من مقاومة مثل هذه التلاعبات.

علاوة على ذلك، فإن الاعتماد فقط على التفسيرات المستندة إلى النص لمحاذاة الذكاء الاصطناعي (AI alignment) في نماذج الذكاء الاصطناعي يجعلها عرضة لهجمات كسر الحماية، ومن ثَمَّ تحتاج النماذج إلى التدرب على كل طريقة ممكنة للتعرف على المطالبات وتفسيرها، والذي من شأنه أن يعزز قدرتها على فهم أي محاولات كسر حماية محتملة والاستجابة لها بشكلٍ مناسب، ما يؤدى إلى تعزيز قدراتها على السلامة.

يلقي ظهور تقنية آرت برومبت المستندة إلى فن ترميز الأحرف أسكي لكسر حماية بوتات الدردشة المدعومة بالذكاء الاصطناعي الضوء على المعركة المستمرة بين مطوري نماذج الذكاء الاصطناعي ومجرمي الإنترنت، فبينما يواصل مطورو نماذج الذكاء الاصطناعي تحسين تدابير السلامة وفلاتر المحاذاة يجد الباحثون دائماً طرقاً جديدة ومبتكرة لكشف نقاط الضعف، ما يُسلّط الضوء على أهمية تحديث النماذج وتعزيزها باستمرار لضمان استخدامها بشكلٍ آمن وأخلاقي.