في 2013، لم تكن شركة ديب مايند معروفة كما هي الآن، ونشرت حينها بحثاً هاماً يظهر كيف يمكن لشبكة عصبونية أن تتعلم كيف تلعب ألعاب الفيديو القديمة كما يلعبها البشر، بمجرد النظر إلى الشاشة. وبعد ذلك، تمكنت تلك الشبكات من التغلب على أفضل اللاعبين البشر.
بعد بضعة أشهر، اشترت جوجل هذه الشركة بمبلغ 400 مليون دولار. ومنذ ذلك الحين بدأت بتطبيق التعلم العميق في مجال واسع من التطبيقات، ومن أشهر هذه التطبيقات التغلب على البشر في لعبة جو القديمة.
ولكن، وعلى الرغم من أن هذا العمل مثير للإعجاب، فإنه يوضح محدودية هامة يعاني منها التعلم العميق. ومقارنة مع البشر، فإن الآلات التي تعتمد على هذه التقنية تستغرق مقداراً كبيراً من الوقت حتى تتعلم. ما هي الميزة التي يحملها التعلم البشري بحيث نتمكن من تحقيق أداء جيد بخبرة قليلة نسبياً؟
اليوم، سنحصل على جواب تقريبي على هذه المسألة، وذلك بفضل عمل راتشيت دوبي وزملائه في جامعة كاليفورنيا في بيركلي. قام الفريق بدراسة كيفية تفاعل البشر مع ألعاب الفيديو لاكتشاف نوع المعرفة المسبقة التي نتكل عليها لفهم هذه الألعاب.
تبين أن البشر يعتمدون على مخزون هائل من المعلومات السابقة عند البدء في لعبة جديدة، مما يجعل من الألعاب أسهل بكثير لهم، ولكن عند التعامل مع ألعاب لا تعتمد على هذه المعلومات، فإنهم يتعثرون، في حين تتابع الآلات عملها بنفس الطريقة.
لنلق نظرة على اللعبة الحاسوبية في الأعلى على اليسار (اللعبة الأصلية). هذه اللعبة مبنية على لعبة كلاسيكية تسمى انتقام مونتيزوما، والتي أطلقت لجهاز أتاري بنظام 8 بت في 1984. لا يوجد دليل لعب ولا تعليمات، ولا تعرف حتى ما هي الشخصية التي تتحكم بها، ولن تحصل على نتائج إلا إذا نجحت في إكمال اللعبة. هل ستتمكن من تحقيق هذا؟ كم ستحتاج من الوقت؟ يمكنك أن تجرب في هذا الموقع (إضافة إلى ألعاب أخرى مذكورة في البحث).
من المرجح أن اللعبة لن تستغرق منك أكثر من دقيقة، وأنك أثناء اللعب قد تجري حوالي 3,000 ضغطة على لوحة المفاتيح. هذا ما وجده دوبي وزملاؤه عند إعطاء اللعبة لأربعين عاملاً من موقع التعهيد الجماعي (الاستعانة بالآخرين في المشاريع) ميكانيكال تيرك، وحصلوا على دولار واحد لقاء إنهاء اللعبة. يقول الباحثون: "ليس هذا مفاجئاً، لأنه يمكن لأي كان أن يتخيل أن هدف اللعبة هو تحريك الروبوت نحو الأميرة عن طريق المشي على الأحجار واستخدام السلالم للوصول إلى المنصات المرتفعة، مع تجنب الأعداء الغاضبين باللون الزهري، والأشياء النارية".
من ناحية أخرى، فقد تبين أن اللعبة صعبة بالنسبة للآلات، ولم تتمكن العديد من خوارزميات التعلم العميق المعيارية أن تحلها، نظراً لعدم وجود وسيلة للخوارزمية لتقييم مدى التقدم ضمن اللعبة إذا كانت النتيجة تأتي فقط بعد إنهاء اللعبة. وقد حققت خوارزمية تعلم معزز مبنية على الفضول أفضل نتيجة بين الآلات، واستغرقت حوالي 4 ملايين ضغطة على لوحة المفاتيح لإنهاء اللعبة، وهو ما يكافئ 37 ساعة من اللعب المستمر.
إذاً، ما الذي يجعل البشر أفضل بكثير؟ تبين أننا لا نتعامل مع اللعبة بدون أية معارف مسبقة. حيث أن البشري يدرك أنه يتحكم بالروبوت، وأن الروبوت يجب أن يتجنب النار ويتسلق السلالم، ويقفز فوق الهوات، ويتجنب الأعداء العابسين، من أجل الوصول إلى الأميرة. ويعود كل هذا إلى معرفتنا المسبقة بأن بعض الأشياء جيدة، وبعضها الآخر (العابس منها أو الناري) سيء، وأن المنصات تدعم الأشياء وأن السلالم يمكن تسلقها، وأن الأشياء المتماثلة في المنظر تسلك نفس السلوك، وأن الجاذبية تسحب الأشياء إلى الأسفل، وحتى ماهية هذه "الأشياء": أشياء منفصلة عن بعضها ومتباينة الميزات.
غير أن الآلة لا تعرف أياً من هذه المعلومات.
وبالتالي، قام دوبي وزملاؤه بإعادة بناء اللعبة لجعل هذه المعلومات المسبقة عديمة الأهمية، وقاسوا الفترة التي يحتاجها المشاركون لإنهائها. ومن ثم افترض الفريق أن أية زيادة في هذه المرة تعود إلى أهمية تلك المعلومات. يقول الباحثون: "لقد أوجدنا نسخاً مختلفة من نفس اللعبة بإعادة رسم عدة عناصر مثل السلالم والأعداء والمفاتيح والمنصات... إلخ... باستخدام أشكال مختلفة". ومن ثم استخدموا هذه الأشكال لإخفاء العناصر المختلفة من المعرفة المسبقة، وغيروا من الخصائص الفيزيائية للعبة، مثل أثر الجاذبية، وطريقة تفاعل اللاعب مع البيئة. وفي كل نسخة، كانت الآليات الأساسية للعبة هي نفسها.
كانت النتائج مذهلة. يقول الباحثون: "لقد وجدنا أن إزالة بعض عناصر المعرفة المسبقة تسبب انخفاضاً كبيراً في سرعة حل اللعبة لدى اللاعبين البشر". وبالفعل، فقد ازداد هذا الوقت إلى أكثر من 20 دقيقة مع إزالة عناصر مختلفة من المعرفة المسبقة. من ناحية أخرى، لم تشكل هذه الإزالة أي فرق في سرعة تعلم الخوارزميات.
تمكن الفريق حتى من تقييم الأنواع المختلفة من المعلومات حسب أهميتها عن طريق حساب الزيادة في الوقت الذي تتسبب به إزالتها. وعلى سبيل المثال، فإن إزالة الصفات الدالة على الغرض، مثل الوجه العابس أو رمز النار، تتطلب من اللاعبين البشر إمضاء وقت أطول قبل إنهاء اللعبة. غير إن إخفاء مفهوم الغرض يجعل الأمور أصعب بكثير، لدرجة أن الكثيرين رفضوا اللعب. يقول الباحثون: "اضطررنا لزيادة المبلغ المدفوع إلى 2.25 دولار لتشجيع المشاركين على المتابعة".
توجد علاقة مثيرة للاهتمام بين عملية الربط هذه وطريقة التعلم البشرية، فقد اكتشف علماء النفس أن الأطفال بعمر الشهرين يمتلكون معرفة بدائية بالأغراض التي يتوقعون تحريكها بأنها متصلة بشيء أكبر منها. ولكن في هذا العمر، لا يمكن للأطفال تصنيف الأغراض إلى فئات، وبين ثلاثة إلى خمسة أشهر، يتعلم الأطفال كيفية التعرف على فئات الأشياء، وبعمر 18 إلى 24 شهر، يتعلمون التعرف على الأشياء المنفردة. وبحلول هذا الوقت، يتعلمون أيضاً خصائص الغرض (أو إمكانات استخدامه، كما يقول علماء النفس)، وبهذا يتعلمون الفرق بين خطوة ممكنة على أرض مسطحة وخطوة مستحيلة تتسبب بالوقوع من مكان مرتفع.
وقد تبيّن أن تجارب دوبي وزملائه تصنف هذا النوع من المعلومات المكتسبة بنفس الترتيب الذي يتعلمها به الأطفال. ويقولون: "من المثير للاهتمام أن نلاحظ أن ترتيب زيادة المعرفة لدى الأطفال يطابق أهمية الأنواع المختلفة من المعلومات المسبقة حول الأغراض. يعتبر عملنا الخطوة الأولى نحو تكميم أهمية الأنواع المختلفة من المعلومات المسبقة التي يوظفها البشر في حل ألعاب الفيديو، وفهم علاقة المعرفة المسبقة ببراعة البشر في هذه المهام المعقدة".
هذا العمل يقترح أسلوباً مثيراً للاهتمام لتحقيق التقدم في مجال الذكاء الاصطناعي للآلات، أي برمجتها بنفس المعرفة الأساسية التي يتعلمها البشر في عمر مبكر. وبهذا، قد تتمكن الآلات من اللحاق بالبشر في سرعة التعلم، وربما تسبقهم.
لا شك أننا نتطلع جميعاً إلى معرفة النتائج.
مرجع: arxiv.org/abs/1802.10217: دراسة المعرفة البشرية المسبقة في ألعاب الفيديو