ملعب يتغير إلى ما لا نهاية لتعليم الذكاء الاصطناعي تنفيذ المهام المتعددة

3 دقائق
ملعب خاص بتطوير الذكاء الاصطناعي
مصدر الصورة: ديب مايند

قامت ديب مايند بتطوير ساحة لعب افتراضية هائلة الحجم وزاهية الألوان لتعليم الذكاء الاصطناعي المهارات العامة، عن طريق تغيير المهام التي يُكلف بها إلى ما لا نهاية. فبدلاً من تطوير المهارات اللازمة للقيام بمهمة محددة، يتعلم الذكاء الاصطناعي كيفية إجراء التجارب والاستكشاف، ويكتسب المهارات الضرورية للنجاح في مهام لم يرها من قبل. ويمثل هذا العمل خطوة صغيرة نحو الذكاء العام.

ولكن ما هو؟ إكس لاند هو عالم ثلاثي الألعاب شبيه بألعاب الفيديو يستطيع البرنامج اللاعب الذي يعتمد على الذكاء الاصطناعي الإحساسَ به باللون. ويُدار هذا العالم من قبل ذكاء اصطناعي مركزي يكلف اللاعبين بمليارات المهام المختلفة، عن طريق تغيير البيئة المحيطة، وقواعد اللعب، وعدد اللاعبين. ويعتمد اللاعبون ومدير الملعب على التعلم المعزز لتحسين الأداء بالمحاولة والخطأ.

وخلال التدريب، يبدأ اللاعبون بألعاب بسيطة للاعب واحد، مثل العثور على مكعب أرجواني أو وضع كرة صفراء على أرضية حمراء. وبعد ذلك، ينتقل اللاعبون إلى ألعاب متعددة أكثر تعقيداً مثل الغميضة وإمساك العلم، حيث يسعى كل فريق إلى العثور على علم الفريق الآخر والإمساك به. أما مدير الملعب فلا يسعى إلى تحقيق هدف محدد، ولكنه يهدف إلى تحسين القدرات العامة للاعبين بمرور الوقت.

إنه أمر رائع، أليس كذلك؟ لقد تمكنت بعض برامج الذكاء الاصطناعي -مثل ألفا زيرو من ديب مايند- من التغلب على أفضل لاعبي الشطرنج ولعبة جو من البشر. غير أنها لا تستطيع أن تتعلم سوى لعبة واحدة في كل مرة. وعندما تحدثت في السنة الماضية إلى شين ليج، أحد مؤسسي ديب مايند، شبه الأمر بمحاولة استبدال دماغ مختص بالشطرنج بدماغ مختص بلعبة جو أو العكس عند الانتقال بين اللعبتين.

والآن، يحاول الباحثون بناء ذكاء اصطناعي قادر على تعلم عدة مهام في الوقت نفسه، ما يعني تعليمه مهارات عامة تسهل من عملية التكيف.

ملعب خاص بتطوير الذكاء الاصطناعي
بعد أن تعلمت هذه البوتات كيفية إجراء التجارب، قامت بارتجال منحدر.
مصدر الصورة: ديب مايند

ومن أحد أكثر التوجهات إثارة للاهتمام في هذا المجال هو التعلم مفتوح النهاية؛ حيث يتم تدريب الذكاء الاصطناعي على مهام متعددة مختلفة دون هدف محدد. ويمكن تشبيه هذا الأسلوب، وفق الكثير من النواحي، بالطريقة التي يبدو أن البشر والحيوانات يتعلمون وفقها، أي اللعب دون هدف. غير أن هذا يتطلب مقداراً هائلاً من البيانات. يقوم إكس لاند بتوليد هذه البيانات تلقائياً، على شكل سيل لا ينتهي من التحديات. وهو مشابه لساحة تدريب الذكاء الاصطناعي POET؛ حيث تتعلم البوتات التي تمشي على قدمين كيفية الحركة والتعامل مع العوائق في بيئة ثنائية الأبعاد. غير أن إكس لاند يتسم بدرجة أعلى من التعقيد والتفاصيل.

كما أنه يمثل الذكاء الاصطناعي الذي يقوم ببناء نفسه بنفسه، أو ما يسمى بخوارزمية توليد الذكاء الاصطناعي AI-GA، وفقاً لتوصيف جيف كلون الذي ساعد على تطوير POET، ويقود حالياً فريقاً يعمل على هذا الموضوع في أوبن إيه آي. يقول كلون: "إنه عمل جديد سيساهم في تطور مجال خوارزميات توليد الذكاء الاصطناعي. وأشعر إزاءه بالكثير من الحماس".

ولكن ماذا تعلمت تلك البرامج؟ خاضت بعض برامج الذكاء الاصطناعي في إكس لاند من ديب مايند 700,000 لعبة مختلفة في 4,000 عالم مختلف، وواجهت ما يصل إجمالاً إلى 3.4 مليون مهمة مختلفة. وبدلاً من تعلم أفضل ما يمكن فعله في كل مرة، وهو ما تهدف إليه أغلب تدريبات الذكاء المعزز الحالية، فقد تعلم اللاعبون كيفية التجريب، أي تحريك الأجسام هنا وهناك لرؤية ما سيحدث، أو استخدام جسم ما كأداة للوصول إلى جسم آخر أو الاختباء خلفه، وذلك حتى تحقيق المهمة المطلوبة.

في مقاطع الفيديو، يمكن أن ترى برامج الذكاء الاصطناعي وهي تقذف بالأجسام هنا وهناك إلى أن تصادف شيئاً مفيداً، مثل قطعة مسطحة كبيرة تصبح منحدراً يوصل إلى منصة. يقول الباحثون إنه من الصعب تحديد ما إذا كانت هذه النتائج مقصودة أو مجرد صدف سعيدة. ولكنها تحدث بشكل مستمر.

وقد أثبتت برامج الذكاء الاصطناعي التي تعلمت كيفية التجريب أنها الأفضل في معظم المهام، حتى تلك التي لم تصادفها قبلاً. وقد وجد الباحثون أن برامج إكس لاند تتكيف بسرعة بعد 30 دقيقة فقط من التدرب على مهمة صعبة جديدة. غير أن البرامج التي لم تُمضِ وقتاً في إكس لاند لم تستطع تعلم هذه المهام على الإطلاق.

المحتوى محمي