نوع جديد من الخوارزميات استطاع أخيراً أن يتغلب على لعبتين من الثمانينيات

استطاعت خوارزمية تعلم آلي من نوع جديد أن تُتقن لعبتي فيديو قديمتين أثبتتا أنهما صعبتان بالنسبة للذكاء الاصطناعي.

ويعرف المتابعون أن خوارزميات الذكاء الاصطناعي تمكَّنت من التفوق على أفضل اللاعبين البشر في لعبة جو القديمة والبديعة، وهي من أصعب الألعاب على الإطلاق، غير أن باحثي الذكاء الاصطناعي وقفوا حائرين إزاء لعبتين قديمتين من حقبة ألعاب الفيديو بنظام 8 بت، وهما "انتقام مونتيزوما Montezuma’s Revenge" و"السقوط Pitfall!".

وهناك سبب لهذا التناقض الظاهري؛ فعلى الرغم من البساطة الخادعة للعبتين، فقد تبين أنه لا يمكن إتقانهما بالتعلم المعزز، وهي تقنية كانت قد أثبتت فعاليتها في تعلم ممارسة ألعاب الفيديو ببراعة. وقد قامت شركة ديب مايند -وهي تركز على الذكاء الاصطناعي وتتبع لشركة ألفابيت- باستخدام هذه التقنية بشكل مشهور لتطوير خوارزميات قادرة على تعلم كيفية ممارسة عدة ألعاب فيديو كلاسيكية بمستوى احترافي.

ويبدو أن التعلم المعزز يتوافق بشكل جيد مع معظم الألعاب، وذلك لأنه يؤدي إلى تعديل سلوك الخوارزمية بناء على التغذية الراجعة الإيجابية، وهي في هذه الحالة زيادة النقاط التي يحرزها اللاعب في اللعبة. وقد أدى نجاح هذه المقاربة إلى زيادة الأمل في أن خوارزميات الذكاء الاصطناعي قد تتمكن من تعليم نفسها الكثير من الأشياء المفيدة التي يستحيل فعلها على الآلات حالياً.

أما المشكلة مع هاتين اللعبتين فهي قلة العلامات الإيجابية الدالة على المكافآت، وتتضمن كلتاهما نفس السيناريو النموذجي تقريباً، حيث يقوم بطل اللعبة باستكشاف عوالم بدائية الشكل، ولكنها مليئة بالمخلوقات والفخاخ القاتلة. ولكن في كل حالة، فإن أغلب الحركات والسلوكيات المطلوبة للتقدم في اللعبة لا تساعد على زيادة النقاط إلا بعد وقت طويل، ولهذا عادةً ما تفشل خوارزميات التعلم المعزز العادية في تجاوز الغرفة الأولى في انتقام مونتيزوما، أما في لعبة السقوط فتحرز نتيجة صفر بالضبط.

وقد أتت الخوارزميات الجديدة من فريق أبحاث الذكاء الاصطناعي في أوبر التي في سان فرانسيسكو، بقيادة جيف كلون، وهو أيضاً بروفسور مساعد في جامعة وايومينج. وقد استعرض الفريق طريقة مختلفة جذرياً للتعلم الآلي ضمن بيئة لا تقدم للخوارزمية إلا قليلاً من الأدلة حول أدائها.

وقد كتب كلون وزوجته في تدوينة حديثة أن من الممكن لهذه الطريقة أن تؤدي إلى بعض التطبيقات العملية المثيرة للاهتمام، كما في تعليم الروبوتات على سبيل المثال؛ وهذا لأنه يجب على الروبوتات في المستقبل أن تعرف ما يجب فعله في بيئات معقَّدة ولا تقدِّم سوى القليل من الجوائز.

وكانت أوبر قد أطلقت مختبر الذكاء الاصطناعي الخاص بها في ديسمبر من العام 2016، وذلك للتوصل إلى نتائج هامة قد تثبت فائدتها لعملها، وبالفعل يمكن لتحسين التعلم المعزز أن يكون مفيداً لأشياء مثل القيادة الذاتية وتحسين مسارات المركبات الآلية.

وقد حاول باحثو الذكاء الاصطناعي الالتفاف حول مشكلة هاتين اللعبتين بجعل خوارزميات التعلم المعزز تستكشف بيئة اللعبة بشكل عشوائي في بعض الأحيان، مع إضافة بضعة جوائز على هذا الاستكشاف، أو ما يعرف باسم "الحافز الداخلي".

غير أن باحثي أوبر يعتقدون أن هذه الطريقة لا تستطيع محاكاة ناحية هامة من الفضول البشري، كما يقولون: "نعتقد أن أهم نقطة ضعف في خوارزميات الحافز الداخلي الحالية هي الانفصال والنسيان، أي أنها تنسى المناطق الواعدة التي زارتها من قبل، ولا تعود إليها لمعرفة ما إذا كانت ستؤدي إلى مناطق أو حالات جديدة".

ولهذا قام الفريق بتطوير مجموعة جديدة من خوارزميات التعلم المعزز، وهي المسماة: جو-إكسبلور، والتي تتذكر أين كانت من قبل، وستعود إلى مناطق أو مهام معينة لاحقاً لمعرفة ما إذا كانت ستساعد على تحسين النتائج الإجمالية أم لا.

كما وجد الباحثون أيضاً أن من الممكن تسريع تقدم الخوارزمية وتعلُّمها بشكل ملحوظ عن طريق إضافة القليل من معرفة المجال (وذلك بجعل اللاعبين البشر يشيرون إلى المناطق المثيرة للاهتمام أو الهامة)، وهذا التقدم مهم للغاية؛ نظراً لوجود الكثير من الأوضاع التي تتطلب عمل الخوارزمية والبشر جنباً إلى جنب لإنجاز مهمة صعبة في العالم الحقيقي.

وقد تمكنت الخوارزمية من تحقيق نتيجة 400,000 نقطة في انتقام مونتيزوما، وهي نتيجة أكبر بمرتبة كاملة من متوسط اللاعبين المَهَرة من البشر، أما في لعبة السقوط فقد راكمت ما يقارب 21,000 نقطة، وهي نتيجة أفضل بكثير من نتائج معظم اللاعبين البشر.

وتقول إيما برونسكيل (بروفسورة مساعدة في جامعة ستانفورد، وأخصائية في التعلم المعزز): "هذه النتائج ممتازة ومثيرة للإعجاب". كما أنها تشير إلى أن من المفاجئ والباعث على الحماس أن هذا الأسلوب قد حقَّق تحسناً كبيراً إلى هذا الحد.

وقد حاول باحثون آخرون في مجال الذكاء الاصطناعي من قبل أن يتغلبوا على هاتين اللعبتين الشقيتين. ففي أكتوبر، قام فريق في مؤسسة أوبين إيه آي غير الربحية في سان فرانسيسكو باستعراض خوارزمية قادرة على تحقيق تقدم كبير في لعبة انتقام مونتيزوما، كما حققت مجموعة برونسكيل في ستانفورد مؤخراً تقدماً أقل في لعبة السقوط، وذلك باستخدام طريقة مماثلة لأسلوب فريق أوبر.

والآن بعدما تمكنت خوارزميات الذكاء الاصطناعي من التغلب على هذه الألعاب، فإن التحدي الحقيقي يكمن في الخروج من اللعبة وحل مشاكل العالم الحقيقي.

وتوافق برونسكيل على أن هذا العمل قد يؤثر بشكل كبير على الروبوتات، ولكنها تقول إن أوضاع العالم الحقيقي -خصوصاً التي تتضمن نمذجة السلوك البشري- أكثر صعوبة بكثير، وتقول: "سيكون من المثير للاهتمام أن نرى أداء هذه الطريقة مع بيئات ومهام أكثر تعقيداً".

غير أن بحث أوبر لم يُثِر إعجاب الجميع على ما يبدو.

ويعمل أليكس إيبران مهندس برمجيات للتعلم الآلي والروبوتات في جوجل، وقد كتب تدوينة تساءل فيها عن السبب الذي دعا باحثي أوبر إلى عدم تقديم ورقة بحثية تقنية -إلى جانب البيان الصحفي- بهدف توضيح المزيد من التفاصيل حول عملهم.

كما أنه يشير إلى أن باحثي أوبر قاموا بتغيير حالة اللعبة لتسهيل عمل خوارزميتهم، مما قد يعني تغيير وضع اللعبة إلى حد كبير، وهو ما يدعوه إلى التشكيك في مدى النجاح العملي لهذه الطريقة فعلياً. ويقول: "يورد المنشور أن هذه الطريقة يمكن أن تستخدم لمهام المحاكاة الروبوتية، ومن ثم التعامل مع الواقع عن طريق نقل المحاكاة إلى العالم الحقيقي. وأنا أشعر بالتشاؤم إلى حد ما في هذا الناحية تحديداً".