يد روبوتية تمضي مائة سنة وهي تعلم نفسها كيفية تدوير مكعب

داكتيل

استعرض باحثو الذكاء الاصطناعي خوارزمية تعلُّم ذاتي تمنح يداً روبوتية قدراتٍ حركية جديدة عالية المستوى؛ فقد قام ابتكارُهم هذا بتعليم نفسه كيفية التلاعب بمكعب بمهارة عالية، عن طريق التدرب ضمن بيئة محاكاة حاسوبية لفترة مائة سنة افتراضية، على الرغم من أنها لم تستغرق فعلياً سوى بضعة أيام.

وما زالت هذه اليد الروبوتية بعيدة للغاية عن مستوى رشاقة اليد البشرية، كما أنها خرقاء لدرجة لا تسمح باستخدامها في مصنع أو مستودع، لكن هذا البحث -رغم ذلك- يبين إمكانية استخدام التعلم الآلي في إكساب الروبوتات مهارات جديدة وغير مسبوقة، كما يقترح أن الروبوتات ستتمكن يوماً ما من تعليم نفسها مهارات جديدة ضمن البيئات الافتراضية، وهو ما قد يُسرع عملية برمجتها وتدريبها إلى حد كبير.

وقد تم تطوير النظام الروبوتي -والذي أطلق عليه اسم "داكتيل Dactyl"- من قِبل الباحثين في أوبن إيه آي (وهي مؤسسة غير ربحية في وادي السيليكون)، ويتألف هذا النظام من يدٍ روبوتية متعددة الأغراض من شركة شادو البريطانية، وكاميرا عادية، وخوارزمية تمكَّنت قبل ذلك من إتقان لعبة دوتا (وهي لعبة فيديو كبيرة متعددة اللاعبين) باستخدام نفس مقاربة التعلم الذاتي.

وتستخدم الخوارزمية تقنية تعلم آلي تسمى التعلم المعزز، وقد أُعطِيت داكتيل مهمة التلاعب بالمكعب بحيث يظهر وجه مختلف نحو الأعلى، وتُرِكت وشأنها لحل المسألة بالمحاولة والخطأ، واستنتاج الحركات التي تعطي النتائج المطلوبة.

وتظهر داكتيل في المقاطع المرئية وهي تُدير المكعب برشاقة مثيرة للإعجاب، وقد تمكنت بشكل آلي من التوصل إلى عدة أساليب للإمساك يستخدمها البشر عادة، غير أن البحث يُبين أيضاً أن هناك طريقاً طويلةً يجب أن يقطعها الذكاء الاصطناعي، فقد تمكن الروبوت من التلاعب بالمكعب بنجاح في 13 مرة فقط من أصل 50 مرة، وذلك بعد مائة سنة افتراضية من التدريب، وهو أطول بكثير من الوقت الذي يتطلبه طفل بشري عادة لتطور مهاراته الحركية؛ يقول رودني بروكس (وهو بروفسور متقاعد من إم آي تي، ومؤسس شركة ريثينك روبوتيكس الناشئة التي تصنع روبوتات صناعية أكثر ذكاء): "إن هذا الروبوت لن يتمكن من العمل في سياق صناعي قريباً، ولكن إجراء الأبحاث أمر جيد ولا بأس فيه".

وقد استُوحِيَ التعلم المعزز من الطريقة التي يبدو أن الكائنات الحية تستخدمها في التعلم (أي عن طريق التقييم الإيجابي)، وقد اقتُرح لأول مرة منذ عدة عقود، ولكن لم تظهر فوائده العملية إلا في السنوات القليلة الأخيرة، وذلك بفضل التطورات الحادثة في الشبكات العصبونية. كما استخدمته ديب مايند (الشركة التابعة لشركة ألفابيت) في تشكيل برنامج ألفاجو؛ وهو برنامج حاسوبي علَّمَ نفسه كيفية ممارسة اللعبة اللوحية جو (والتي تتميز بصعوبة فائقة) بمهارة تفوق المستوى البشري.

وقد حاول باحثون آخرون اختبار المقاربة لبعض الوقت، ولكنهم واجهوا صعوبة كبيرة في محاكاة تعقيد العالم الحقيقي وعشوائيته، وقد حاول باحثو "أوبن إيه آي" خداع هذه المشكلة، عن طريق إجراء تغييرات عشوائية على العالم الافتراضي نفسه؛ بحيث يتعلم الروبوت الانتباه إلى الكثير من العوامل الدقيقة والمتنوعة؛ مثل الاحتكاك، والضجيج في العتاد الصلب للروبوت، ولحظات اختفاء المكعب عن (نظر) الروبوت.

ويرى أليكس راي (أحد المهندسين الذي صمموا الروبوت) أن من الممكن تحسين داكتيل عن طريق زيادة قوة المعالجة الحاسوبية، وإضافة المزيد من العوامل العشوائية، ويقول إنه لا يعتقد أنهم وصلوا إلى أقصى ما يمكنهم تحقيقه بعد، ويضيف أنهم لا يملكون حالياً أية خطة لمحاولة الاستفادة من التقنية تجارياً، بل إن الفريق يركز بشكل كامل على تطوير أفضل مقاربة ممكنة للتعلم العام.

يقول دميتري بيرينسون (أخصائي بالروبوتات في جامعة ميشيغان، ومهتم بمسألة التلاعب الآلي): "هذا ليس سهلاً على الإطلاق"، ويضيف أن المدى الذي يمكن أن تصل إليه أحدث أساليب التعلم الآلي ليس واضحاً؛ حيث "يوجد الكثير من الجهود المبذولة لبناء الشبكة العصبونية المناسبة لمهمة معينة محددة"، ولكنه يعتقد أن التعلم بالمحاكاة قد يُحدث فائدة كبيرة؛ "وإذا نجحنا في عبور الهوة التي تفصل الواقع الحقيقي عن الافتراضي، فسوف يصبح التعلم أسهل بكثير".