يقول الخبر
تعلم ذكاء اصطناعي يحمل اسم إيجنت-57 Agent57 لعبَ جميع ألعاب أتاري التي يبلغ عددها 57 لعبة فيديو ضمن بيئة آركيد للتعلم، وهي مجموعة من الألعاب الكلاسيكية التي يستخدمها الباحثون عادة لاختبار حدود نماذج التعلم العميق الخاصة بهم. يستخدم إيجنت-57 الذي طورته ديب مايند خوارزمية التعلم المعزز العميق ذاتها لتحقيق مستويات فائقة من اللعب، حتى في الألعاب التي سبق للذكاء الاصطناعي أن واجه صعوبات معها. إن القدرة على تعلم 57 مهمة مختلفة يجعل من إيجنت-57 أكثر مرونة من كيانات الذكاء الاصطناعي السابقة المتخصصة في لعب الألعاب.
ما الذي يميز الألعاب؟
تمثل هذه الألعاب وسيلة رائعة لاختبار كيانات الذكاء الاصطناعي؛ فهي توفر مجموعة متنوعة من التحديات التي تجبر الذكاء الاصطناعي على طرح مجموعة من الإستراتيجيات، رغم أنها ما تزال في حاجة إلى وجود مقياس واضح للنجاح -على شكل حصيلة من النقاط- للتدرب عليه. لكن الصعوبة ظهرت في 4 من ألعاب أتاري على وجه الخصوص. ففي لعبتي مونتيزوما ريفينج وبيتفول، يتعين على الذكاء الاصطناعي أن يجرب الكثير من الإستراتيجيات المختلفة قبل التوصل إلى إستراتيجية رابحة. وفي لعبتي سوالريس وسكيينج قد تكون هناك فترات انتظار طويلة بين القيام بحركة معينة والحصول على المكافأة المقابلة، مما يصعّب على الذكاء الاصطناعي معرفة الحركات التي تحقق أفضل مردود.
عقل متطور
لمواجهة هذه التحديات، يجمع إيجنت-57 العديدَ من التحسينات التي أدخلتها ديب مايند على شبكتها للتعلم العميق الموجه بالجودة (Deep-Q)، وهو الذكاء الاصطناعي الذي تغلب في البداية على حفنة من ألعاب أتاري عام 2012، متضمناً شكلاً من أشكال الذاكرة التي تتيح له اتخاذ القرارات بناءً على الأشياء التي "رآها" سابقاً في أنظمة الألعاب والمكافأة، والتي تشجع الذكاء الاصطناعي على استكشاف خياراته بشكل كامل قبل الاستقرار على إستراتيجية معينة. ثم تتم إدارة هذه التقنيات المختلفة بواسطة وحدة تحكم فائقة، بإمكانه موازنة التفضيلات بين المضي قدماً باتباع إستراتيجية معينة من جهة، واستكشاف المزيد من الإستراتيجيات من جهة أخرى.
أهمية هذا العمل
على الرغم من النجاح الذي حققته الشركة، إلا أن أفضل نماذج التعلم العميق التي لدينا اليوم تفتقد للمرونة في تنفيذ مهمات مختلفة؛ حيث تميل معظم النماذج إلى إظهار البراعة في جانب واحد فحسب، فتدريب الذكاء الاصطناعي لكي يتفوق في أكثر من مهمة واحدة يعدّ أحد أكبر التحديات في التعلم العميق.
إن القدرة على تعلم 57 مهمة مختلفة تمنح إيجنت-57 مرونة أكبر من حيث تعدد الاستخدامات مقارنة بكيانات الذكاء الاصطناعي السابقة المتخصصة في لعب الألعاب، ولكنه ما زال غير قادر على تعلم الخوض في عدة ألعاب في آن واحد. بإمكان إيجنت-57 أن يتعلم خوض 57 لعبة، ولكن ليس بإمكانه أن يتعلم خوض 57 لعبة في آن واحد، إنه في حاجة للتدرب مجدداً على كل لعبة جديدة حتى وإن كان قادراً على استخدام نفس الخوارزمية للقيام بذلك. وبهذه الطريقة يبدو إيجنت-57 شبيهاً بألفا زيرو (خوارزمية ديب مايند للتعلم المعزز العميق)، التي يمكنها أن تتعلم لعب الشطرنج، ولعبة جو، ولعبة شوغي (الشطرنج الياباني)، ولكنها أيضاً غير قادرة على لعب كل هذه الألعاب في آن واحد. يبدو أن المرونة الفعلية في تنفيذ مهام متعددة، التي يكتسبها الطفل الرضيع البشري بمنتهى السهولة، ما تزال بعيدة عن متناول الذكاء الاصطناعي.