يد روبوتية تُعلِّم نفسَها حل مكعب روبيك بعد أن صممت نظام التدريب الخاص بها

منذ أكثر من عام، أعلن أوبن إيه آي، وهو مختبر أبحاث ربحي مُتخصِّص في الذكاء الاصطناعي ومقرُّه سان فرانسيسكو، أنه درّبَ يداً روبوتية على التلاعب بمُكعَّب بإتقانٍ مُذهل.

قد يبدو هذا الخبر عادياً. إلا أنه كان أمراً مُدهشاً في عالم الذكاء الاصطناعي، ويعود ذلك لسببين اثنين: يكمُن أولهما في أن اليد الروبوتية قد علَّمت نفسها كيفية التلاعب بالمُكعَّب باستخدام خوارزمية تعلُّم مُعزَّز، وهي تقنية تستقي نماذجَها من الطريقة التي تتعلم بها الحيوانات. أما السبب الآخر فيعود إلى أنه على الرغم من إجراء جميع عمليات التدريب عن طريق المحاكاة الافتراضية، فقد تمكَّن الباحثون من نقلِها بنجاح إلى العالَم الحقيقي. ولهذين السببين، يُعتَبر هذا البحث خطوةً كبيرة في اتجاه تصميم روبوتات أكثر مرونةً وقدرةً على العمل في التطبيقات الصناعية والاستهلاكية.

وتعلِّق ليسلي كيلبلينج، وهي عالمة روبوتات وأستاذة في جامعة إم آي تي، على نتائج العام الماضي قائلة: "لقد أذهلتني هذه النتائج، لم أكن أتخيل إمكانيةَ نجاحهم في تنفيذ هذا الأمر".

مصدر الفيديو: أوبن إيه آي

وقد نشر مختبر أوبن إيه آي أحدثَ نتائج عملهم على اليد الروبوتية، المُسماة داكتيل، في تقريرٍ جديد هذا الأسبوع. لقد تعلَّمت داكتيل هذه المرة كيفية حلّ مُكعَّب روبيك باستخدام يدٍ واحدة، وللتذكير مرة أخرى، تمكنت من فعل ذلك عن طريق تطبيق التعلم المُعزَّز في المحاكاة الافتراضية. ولا تكمن أهمية هذا الإنجاز في تمكُّن الروبوت من حل اللغز القديم فحسب، وإنما تكمن أيضاً -وبدرجة أكبر- في مستوى البراعة الذي اكتسبه في هذه العملية.

يقول ديمتري بيرينسون، وهو عالم روبوتات في جامعة ميشيغان ومُتخصِّص في التلاعُب الآلي: "إن هذه المشكلة صعبةُ الحل فعلاً؛ حيث إن تدوير أجزاء مُكعَّب روبيك يتطلَّب نوعاً معيناً من التلاعُب أصعبَ بكثير من تدوير مُكعَّب عادي".

خلال مرحلة الاختبار، تمكنت داكتيل من حلِّ مُكعَّب روبيك بنجاح حتى بوجود ظروف غير متوقعة. مصدر الصور: أوبن إيه آي

الانتقال من العالم الافتراضي إلى أرض الواقع تقليدياً، كانت قدرة الروبوتات على التلاعب بالأغراض مُقتصرةً على طُرقٍ بسيطة جداً. وعلى الرغم من النجاح الكبير الذي حققته خوارزميات التعلم المُعزَّز في إنجاز بعض المهام المُعقَّدة في عالم البرامج الافتراضية، كالتغلُّب على أمهر اللاعبين من البشر في لعبة جو القديمة، إلا أنّ استخدامها لتدريب آلة حقيقية هو أمرٌ مختلفٌ تماماً. ويعود ذلك إلى أنه يتوجب على الخوارزميات تحسين أدائها عن طريق التجربة والخطأ، وهذه العملية تتطلب في حالات عديدة ملايين الجولات من التدريب؛ وبالتالي قد يحتاج روبوت آلي في العالم الحقيقي إلى وقتٍ طويل جداً بالإضافة إلى تعرُّضه للاهتلاك قبل أن يتمكن من إنجاز هذه العملية. حتى أن هذه الأمر ينطوي على بعض الخطورة إذا ما قام الروبوت بالتحرك على نحو عنيف سعياً منه لجمع البيانات.

ومن أجل تفادي ما سلف، يلجأ علماء الروبوتات إلى استخدام المحاكاة؛ حيث يُصمِّمون نموذجاً افتراضياً للروبوت ثم يُدرِّبونه في العالم الافتراضي لتنفيذ المهمة المَنوطة به. وبهذه الطريقة، تقوم الخوارزمية بعملية التعلم في أمان الفضاء الرقمي، ثم بعد انتهائها يمكن نقلها إلى روبوت حقيقي. لكن هذه العملية تجلب معها التحديات الخاصة بها؛ حيث يكاد يكون من المستحيل تصميم نموذج افتراضي يستطيع محاكاة جميع قوانين الفيزياء، وخواص المواد وسلوكيات التلاعب كما نعرفها في العالم الحقيقي، ناهيك عن التعامل مع الظروف غير المتوقعة. وهكذا تزداد صعوبة تطبيق الخوارزمية المُدرَّبة افتراضياً في العالم الحقيقي كلما ازداد تعقيد الروبوت والمهمة المُوكَلة إليه.

وهذا بالضبط هو ما أذهل كيلبلينج في نتائج أوبن إيه آي في العام الماضي؛ حيث إن مفتاح نجاح المختبر يكمن في قيامه بتعديل ظروف المحاكاة عشوائياً في كل جولة تدريب بحيث تصبح الخوارزمية أكثر قدرة على التكيف مع الاحتمالات المختلفة.

تقول كيلبلينج:"لقد قاموا بتجريب جميع أنواع الإعدادات الغريبة على المحاكي، فلم يكتفوا بتعديل مستوى قوة الجاذبية في النموذج، بل غيروا اتجاه الجاذبية أيضاً. وبناء عليه -ومن خلال محاولة بناء إستراتيجية تعمل بشكل موثوق مع جميع هذه الإعدادات الغريبة في المحاكاة- انتهى المطاف بهذه الخوارزمية إلى تمكُّنها فعلاً من العمل على روبوت حقيقي".

وفي البحث الأخير، ينقل مختبر أوبن إيه آي هذه التقنية إلى مرحلة أكثر تقدُّماً؛ فقد كان يتعيَّن على الباحثين في السابق أن يُغيِّروا عشوائياً في الثوابت الوسيطة الخاصة بالبيئة من خلال الاختيار اليدوي للإعدادات التي اعتقدوا أنها ستؤدي إلى تحسين الخوارزمية. أما الآن فإن هذه المهمة تقع على عاتق نظام التدريب الآلي؛ ففي كل مرة يبلغ الروبوت مستوى من التمكُّن في ظروف البيئة الحالية، يقوم المُحاكي بتعديل ثوابته الوسيطة لجعل ظروف التدريب أكثر صعوبة.

وكانت النتيجة هي خوارزمية أكثر فعالية يمكنها تحقيق الدقة المطلوبة في الحركة لتدوير أجزاء مُكعَّب روبيك في العالم الحقيقي. ومن خلال الاختبارات، وجد الباحثون أن داكتيل قد حلَّت بنجاح مشكلة المُكعَّب في ظل ظروف متنوعة لم تتدرب عليها من قبل. وعلى سبيل المثال، تمكنت اليد الروبوتية من إنجاز المهمة حتى مع ارتداء قفاز مطاطي، أو مع ربط بضعة أصابع مع بعضها، أو حتى أثناء الدفع بدمية على شكل زرافة أمامها.

روبوتات متعددة الأغراض يعتقد مختبر أوبن إيه آي أن النتائج الأخيرة توفِّر دليلاً قوياً على أن هذه الطريقة ستفتح المجال أمام تصميم المزيد من الروبوتات متعددة الاغراض التي تستطيع التكيف في بيئات مفتوحة مثل مطابخ البيوت، حيث يقول مارسين أندريشويز من أوبن إيه آي: "يُعتبر مُكعَّب روبيك من أكثر الأغراض الصلبة تعقيداً. وأعتقد أن أي غرض آخر لن يكون أكثر تعقيداً بكثير".

ويضيف أنه على الرغم من وجود مهام أكثر تعقيداً تشمل أغراضاً أكثر أو أغراضاً غير متناسقة من حيث الشكل، فإنه واثقٌ من أن طريقة المختبر تستطيع تدريب الروبوتات على التعامل مع جميع هذه الأغراض، حيث يقول: "أعتقد أن هذه الطريقة هي السبيل الصحيح للوصول إلى الاعتماد الواسع على الروبوتات".

ومع ذلك، مازال بيرينسون وكيلبلينج مُتشكِّكَيْن؛ حيث يقول بيرينسون في تعليقه على الورقتين القديمة والحديثة: "ربما يوجد انطباع بأن هناك نظرية أو نظاماً واحداً مُوحَّداً، والآن يقوم أوبن إيه آي باستخدامه لتنفيذ المهام المختلفة، لكن ليس هذا ما يحدث على الإطلاق؛ حيث توجد مهام معزولة. صحيح أن هناك مُكوِّنات مشتركة، لكن هناك أيضاً كمية هائلة من العمل الهندسي لتمكين كل مهمة جديدة من العمل".

ويضيف: "لهذا السبب أنا أشعر بعدم الارتياح إلى حدٍّ ما إزاء المزاعم بإمكانية أن تقود هذه الأبحاث إلى روبوتات متعددة الأغراض، وأنظر إليه باعتباره نظاماً مُحدداً جداً ومُخصصاً لتطبيق مُعيًّن".

ويعتقد بيرينسون أن التعلم المُعزَّز بحدِّ ذاته يمثل جزءاً من المشكلة؛ حيث تم تصميم الخوارزمية بطبيعتها لإتقان شيء محدد، مع بعض المرونة للتعامل مع التغيُّرات. أما في العالم الحقيقي، يتجاوز عدد التغيُّرات الُمحتملة الحدَّ الذي يمكن محاكاته بشكلٍ معقول. فعلى سبيل المثال، في مهمة التنظيف يمكن أن يكون لديك أنواع مختلفة من المماسح والبقع والأرضيات.

إضافة إلى هذا فإن التعلم المُعزَّز مُصمَّم لتعلم قدرات جديدة إلى حد بعيد من الصفر، وهذا الأمر ليس فعالاً في الروبوتات كما أنه غير مُطابق لطريقة تعلم البشر؛ حيث تقول كيلبلينج: "إن كنتَ شخصاً مؤهلاً بشكل معقول وحاولتُ تعليمَك مهارةً حركية في المطبخ -مثلاً كيفية الخفق بالملعقة- فليس الأمر كما لو كان عليك أن تتعلم كيفية التحكم في حركتك من الصفر مرة أخرى".

ويرى بيرينسون أن تجاوز هذه الحدود سيتطلب تقنيات روبوتية أخرى وتقليدية أكثر، ويقول: "سيكون هناك بعض عمليات التعلم -على الأغلب التعلم المُعزَّز- في نهاية المطاف. لكن أعتقد أن هذه الخوارزميات يجب أن تأتي في مرحلة متأخِّرة من هذه العملية".