أنشأت شركة جوجل ديب مايند وكيلاً جديداً يلعب ألعاب الفيديو يسمى سيما 2 (SIMA 2) يمكنه التنقل وحل المشكلات في مجموعة واسعة من العوالم الافتراضية ثلاثية الأبعاد. وتزعم الشركة بأن هذه خطوة كبيرة نحو وكلاء أكثر عمومية وروبوتات أفضل في العالم الحقيقي.
عرضت جوجل ديب مايند أول مرة سيما 2 (2 SIMA)، الذي يعني وكيلاً متعدد العوالم قابلاً للتطوير وللتعليم، العام الماضي. ولكن جرى بناء سيما 2 اعتماداً على جيميناي، وهو النموذج اللغوي الكبير الرائد للشركة، ما يمنح الوكيل دفعة هائلة في القدرات.
"سيما 2": ما الذي يمكن أن يقدمه؟
ويزعم الباحثون أن SIMA 2 يمكنه تنفيذ مجموعة من المهام الأكثر تعقيداً داخل العوالم الافتراضية، واكتشاف كيفية حل بعض التحديات بنفسه، والدردشة مع مستخدميه، كما يمكنه أيضاً تحسين نفسه من خلال معالجة المهام الأصعب عدة مرات والتعلم من خلال التجربة والخطأ.
قال جو مارينو، عالم الأبحاث في شركة جوجل ديب مايند، في مؤتمر صحفي هذا الأسبوع: "كانت الألعاب قوة دافعة لأبحاث الوكلاء فترة طويلة". وأشار إلى أنه حتى الفعل البسيط في اللعبة، مثل إضاءة الفانوس، يمكن أن ينطوي على خطوات متعددة: ويتابع "إنها مجموعة معقدة حقاً من المهام التي تحتاج إلى حلها للتقدم".
والهدف النهائي هو تطوير الجيل التالي من الوكلاء القادرين على اتباع التعليمات وتنفيذ المهام المفتوحة داخل بيئات أكثر تعقيداً من متصفح الويب. وعلى المدى الطويل، تريد جوجل ديب مايند استخدام مثل هذه الوكلاء لقيادة الروبوتات في العالم الحقيقي. وفقاً لمارينو، فإن المهارات التي تعلمها سيما 2، مثل التنقل في بيئة ما، واستخدام الأدوات، والتعاون مع البشر لحل المشاكل، هي لبنات أساسية للربوتات المصاحبة للبشر في المستقبل.
على عكس العمل السابق على وكلاء لعب الألعاب مثل ألفا زيرو، الذي تغلب على أحد أساتذة لعبة Go عام 2016، أو AlphaStar، الذي تغلب على 99.8% من اللاعبين المنافسين من البشر في لعبة الفيديو StarCraft 2 في عام 2019، فإن الفكرة وراء سيما هي تدريب الوكيل على لعب لعبة مفتوحة من دون أهداف محددة مسبقاً. وعوضاً عن ذلك، يتعلم الوكيل تنفيذ التعليمات التي يقدمها له البشر.
يتحكم البشر في سيما 2 عبر الدردشة النصية، أو عبر التحدث إليه بصوت عال، أو الرسم على شاشة اللعبة. يأخذ الوكيل بكسلات لعبة الفيديو إطاراً تلو الآخر ويحدد الإجراءات التي يحتاج إلى اتخاذها لتنفيذ مهامه.
وعلى غرار ما سبقها، جرى تدريب "سيما 2" على لقطات لبشر يلعبون ثماني ألعاب فيديو تجارية، بما في ذلك لعبة No Man's Sky وGoat Simulator 3، بالإضافة إلى ثلاثة عوالم افتراضية أنشأتها الشركة. تعلم الوكيل مطابقة مدخلات لوحة المفاتيح والماوس مع الإجراءات.
اقرأ أيضاً: ما هي تهديدات البيانات الشخصية في أكبر مجموعة لتدريب نماذج الذكاء الاصطناعي؟
استخدام جيميناي في التدريب
ووفقاً للباحثين، فإن "سيما 2" يصبح أفضل بكثير في اتباع التعليمات (طرح الأسئلة وتقديم التحديثات في أثناء سيرها) واكتشاف كيفية أداء بعض المهام الأكثر تعقيداً بنفسه عند توصيله مع جيميناي.
اختبرت جوجل ديب مايند الوكيل داخل بيئات لم يسبق له أن شاهدها من قبل. في مجموعة واحدة من التجارب، طلب الباحثون من "جيني 3"، وهو أحدث إصدار من نموذج عالم الشركة، إنتاج بيئات من الصفر، وأدخلوا "سيما 2" إليها. ووجدوا أن الوكيل كان قادراً على التنقل وتنفيذ التعليمات هناك.
واستخدم الباحثون أيضاً جيميناي لتوليد مهام جديدة لـ "سيما 2"، فإذا فشل الوكيل، في البداية كان جيميناي يولد نصائح يأخذها "سيما 2" عندما يحاول مرة أخرى. يوضح مارينو أن تكرار مهمة ما عدة مرات بهذه الطريقة غالباً ما يسمح لـ سيما 2 بالتحسين عن طريق التجربة والخطأ حتى تنجح.
اقرأ أيضاً: دليلك لتصبح خبيراً في الحوسبة السحابية مع أهم الدورات التدريبية المساعِدة
المزيد من التدريب
لا يزال "سيما 2" تجربة، ويكافح الوكيل مع المهام المعقدة التي تتطلب خطوات متعددة ووقتاً أطول لإكمالها، كما أنه لا يتذكر سوى أحدث تفاعلاتها (لجعل سيما 2 أكثر استجابة، خفض الفريق ذاكرته الطويلة المدى)، كما أنه لا يزال بعيداً كل البعد عن براعة الأشخاص في استخدام الفأرة ولوحة المفاتيح للتفاعل مع العالم الافتراضي.
يعتقد جوليان توغيليوس، باحث الذكاء الاصطناعي في جامعة نيويورك الذي يعمل في مجال الإبداع وألعاب الفيديو، أنها نتيجة مثيرة للاهتمام. ويقول إن المحاولات السابقة لتدريب نظام واحد على لعب ألعاب متعددة لم تسر على ما يرام. وذلك لأن تدريب النماذج على التحكم بألعاب متعددة فقط من خلال مشاهدة الشاشة ليس بالأمر السهل: "اللعب في الوقت الحقيقي من المدخلات البصرية فقط هو 'وضع صعب'"، كما يقول.
وعلى وجه الخصوص، يستدعي توغيليوس نظام غاتو، وهو نظام سابق من جوجل ديب مايند، والذي -على الرغم من الترويج له في ذلك الوقت- لم يتمكن من نقل المهارات عبر عدد كبير من البيئات الافتراضية.
ومع ذلك، فهو يرحب بكل الاحتمالات حول إذا ما كان نظام سيما 2 يمكن أن يؤدي إلى روبوتات أفضل أم لا. ويقول: "العالم الحقيقي أصعب وأسهل من ألعاب الفيديو. فهو أصعب لأنك لا تستطيع الضغط على حرف A لفتح الباب. وفي الوقت نفسه، فإن الروبوت في العالم الحقيقي سيعرف بالضبط ما يمكن أن يفعله جسمه وما لا يمكن أن يفعله في أي وقت. ليس هذا هو الحال في ألعاب الفيديو، حيث يمكن أن تختلف القواعد داخل كل عالم افتراضي.
آخرون أكثر تشككاً؛ الباحث في مجال الذكاء الاصطناعي في جامعة ألبيرتا، ماثيو جوزديال، لا يستغرب من أن "سيما 2" يمكنه لعب العديد من ألعاب الفيديو. ويشير إلى أن معظم الألعاب لها عناصر تحكم متشابهة جداً في الكيبورد والماوس: تعلم واحدة وستتعلمها كلها. ويقول: "إذا وضعت أمامه لعبة ذات مدخلات غريبة، لا أعتقد أنه سيكون قادراً على تقديم أداء جيد".
اقرأ أيضاً: كيف يؤثر نقص بيانات التدريب في كفاءة نماذج الذكاء الاصطناعي التوليدي؟
يتساءل جوزديال أيضاً عن مدى إمكانية نقل ما تعلمه سيما 2 إلى الروبوتات. يقول: "من الأصعب بكثير فهم المرئيات من الكاميرات في العالم الحقيقي مقارنة بالألعاب، والتي جرى تصميمها بمرئيات يمكن تحليلها بسهولة للاعبين البشر".
ومع ذلك، يأمل مارينو وزملاؤه مواصلة عملهم مع جيني 3 للسماح للوكيل بالتحسن داخل نوع من التدريب الافتراضي اللانهائي، حيث يولد جيني عوالم لـ "سيما" ليتعلم فيها عبر التجربة والخطأ مسترشداً بملاحظات جيميناي. وقال في المؤتمر الصحفي: "ما زلنا في بداية ما يمكن تحقيقه".