أنظمة الذكاء الاصطناعي القائمة على التعلم المعزز عُرضة لنوع جديد من الهجمات

يصطفُّ بوت كرة القدم ليوجِّه تسديدةً إلى المرمى، لكن الحارس يسقط على الأرض ملوحاً بساقيه عوضاً عن الاستعداد لصد الركلة، مما يُربك المهاجِم الذي يبدأ برقصةٍ غريبة ويتعثر بقدميه ويلوح بذراعه قبل أن يسقط أرضاً، والنتيجة 1-0 لصالح حارس المرمى.

إن ما نراه ليس تكتيكاً يمكن أن يلجأ اللاعبون المحترفون إلى استخدامه، بل هو إثباتٌ على أن الذكاء الاصطناعي المدرب بواسطة التعلم المُعزَّز العميق -وهي التقنية وراء تصميم أنظمة الذكاء الاصطناعي المتطورة لممارسة الألعاب مثل ألفاجو وأوبن إيه آي فايف- هو أكثر عرضةً للهجمات مما اعتقدناه سابقاً، ويمكن لهذا الأمر أن يحمل عواقبَ وخيمة.

مصدر الفيديو: آدم جليف

خلال السنوات القليلة الماضية، اكتشف الباحثون العديد من الطرق لاختراق أنظمة الذكاء الاصطناعي المُدرَّبة باستخدام بياناتٍ موسومة، وهو ما يُعرف باسم التعلم الموجَّه. حيث يمكن لتعديلاتٍ بسيطة على دخل النظام -من قبيل تغيير بضعة بيكسلات في صورة- أن يربكه تماماً، مما يجعله يتعرف على صورة لحيوان الكسلان على أنها صورة لسيارة سباق على سبيل المثال. وليس هناك إصلاحٌ مضمون لهذا النوع من الهجمات التي تسمى هجمات تنافسية.

يعتبر التعلم المعزز تقنيةً حديثة نسبياً مقارنة بالتعلم الموجه ولم تتم دراسته بالعمق الكافي. لكن تبين أنه معرضٌ هو الآخر للهجمات عن طريق الدخل المُفبرك. يقوم التعلم المعزَّز بتعليم الذكاء الاصطناعي كيفية التصرف في أوضاعٍ مختلفة من خلال منحه مكافآتٍ عند تنفيذ الأمر الصحيح. وفي نهاية المطاف، يتعلم نظام الذكاء الاصطناعي خطةً للعمل تُعرف باسم سياسة. وتمكِّن هذه السياسات أنظمةَ الذكاء الاصطناعي من ممارسة الألعاب أو قيادة السيارات أو تشغيل أنظمة التداول المؤتمتة.

في 2017، درست ساندي هوانج، التي تعمل الآن لدى ديب مايند، مع زملائها نظام ذكاءٍ اصطناعي مُدرَّب بواسطة التعلم المعزَّز ليلعب لعبة الفيديو الكلاسيكية بونج. وقد أظهروا أن إضافة بيكسل خادع واحد إلى إطارات الفيديو المُدخَل من شأنه أن يدفع النظام للخسارة بشكلٍ أكيد. واليوم، يأتي دور آدم جليف من جامعة كاليفورنيا بيركلي لينقل الهجمات التنافسية إلى مستوىً آخر.

إن الأمثلة التي رأيناها حتى الآن لا تثير قلقاً كبيراً لدى جليف؛ حيث يقول: "أنا متشككٌ في كونها تمثل تهديداً؛ إذ إن قيام مهاجمٍ باختراق نظامنا للتعلم الآلي من خلال إضافة كميةٍ صغيرة من التشويش لا يبدو فكرةً واقعية". لكن عوضاً عن خداع نظام ذكاء اصطناعي بحيث يرى شيئاً ليس موجوداً بالفعل، يمكنك تغيير طريقة عمل الأشياء من حوله. بعبارةٍ أخرى، يمكن خداع نظام ذكاء اصطناعي مدرَّب باستخدام التعلم المعزَّز من خلال التصرفات الغريبة. يُطلق جليف وزملاؤه على ذلك اسم السياسة التنافسية، ويقول جليف إنها نموذجُ تهديدٍ غير معروف من قبل.

فقدان السيطرة
من بعض النواحي، تُعدُّ السياسات التنافسية أكثر إثارةً للقلق من الهجمات على نماذج التعلم الموجَّه، لأن سياسات التعلم المعزَّز تَحْكم كاملَ سلوك نظام الذكاء الاصطناعي. وعلى سبيل المثال، إذا أخفقت سيارةٌ من دون سائق في تصنيف دخلٍ ما من كاميرتها، يمكنها عندئذٍ الاعتماد على الحساسات الأخرى. لكن تخريب نظام التحكم بالسيارة- الذي تحكمه خوارزمية التعلم المعزَّز -قد يؤدي إلى كارثة. ويقول جليف: "إذا ما تم تطبيق السياسات قبل حلّ هذه المشاكل، فقد تتسبب في مشاكل شديدة الخطورة"، حيث يمكن للسيارة دون سائق أن تخرج عن السيطرة إذا واجهت أحد المشاة ملوِّحاً بيده.

استخدم جليف وزملاؤه التعلم المعزز في تدريب بوتات بهيئة عصي على لعب مجموعةٍ من الألعاب التي تضم لاعبين اثنين، بما فيها تسديد كرة إلى مرمى والسباق على المسار ومصارعة السومو. كانت البوتات على علمٍ بوضعية وحركات أطرافها بالإضافة إلى وضعية وحركات أطراف الخصوم.

مصدر الفيديو: آدم جليف

ثم قاموا بتدريب مجموعةٍ ثانية من البوتات (المنافسين) على اكتشاف أساليب لاستغلال المجموعة الأولى، وقد تمكنت هذه المجموعة الثانية بسرعةٍ من اكتشاف سياساتٍ تنافسية. وقد وجد الفريق أن المنافسين تعلموا هزيمة ضحاياهم بشكلٍ مؤكد بعد تدريبهم لأقل من 3% من الوقت الذي استهلكته الضحايا أساساً في تعلم ممارسة الألعاب.

لم يتعلم المنافسون طريقة الفوز من خلال التحول إلى لاعبين وإنما من خلال أداء حركات أفسدت سياسات خصومهم. في لعبتي كرة القدم والركض، فإن اللاعب المنافس في بعض الأحيان لم يقف على ساقيه حتى. وهذا ما جعل الضحية تنهار إلى كومةٍ ملتوية أو تتخبط في حركة دائرية. ما هو أكثر من ذلك، هو أن الضحايا قد أبدوا أداءً أفضل بكثير عندما تم "حجبها" بحيث تغدو غير قادرة على رؤية المنافسين إطلاقاً.

يبين هذا البحث أن السياسات التي تبدو منيعةً وقوية قد تخفي عيوباً خطيرة، وسوف يتم تقديم هذه النتائج في المؤتمر الدولي لتمثيلات التعلم في إديس أبابا، بأثيوبيا في أبريل المقبل. يقول جليف: "في التعلم المعزَّز، لا نقوم فعلاً بتقييم السياسات بطريقةٍ شمولية بما يكفي". بينما يتم اختبار نموذج التعلم الموجَّه، الذي تم تدريبه مثلاً على تصنيف الصور، باستخدام مجموعة بياناتٍ مختلفة عن تلك التي تدرَّب عليها؛ وذلك لضمان أنه لم يقم ببساطة بحفظ مجموعةٍ معينة من الصور. لكن في التعلم المعزَّز، فإنه عادة ما يتم تدريب النماذج واختبارها في نفس البيئة، هذا يعني أنك لن تستطيع أبداً التأكد من مستوى جودة النموذج في التعامل مع الأوضاع الجديدة.

الخبر الجيد هو أن التصدي لهجمات السياسات التنافسية قد يكون أسهل من التصدي لهجمات تنافسية من نوعٍ آخر. عندما قام جليف بتعديل بوتات الضحايا لتأخذ بالاعتبار السلوك الغريب لمنافسيهم، اضطر المنافسون إلى تجربة خدعٍ مألوفة أكثر مثل دفع خصومهم للتعثر. وهذا يعتبر أيضاً لعباً قذراً لكنه لا يستغل عيباً في النظام، ففي نهاية المطاف، يلجأ اللاعبون البشر إلى هذا اللعب القذر طوال الوقت.