هل يمكن تدريب الروبوتات باستخدام الصور المولّدة بالذكاء الاصطناعي؟

3 دقيقة
مصدر الصورة: ستيفاني آرنيت/ إم آي تي تكنولوجي ريفيو | إنفاتو

ملخص: يمكن استخدام الذكاء الاصطناعي التوليدي لتوليد بيانات مفيدة لتدريب الروبوتات، وهو ما يعمل باحثون من مختبر ستيفن جيمس لتعليم الروبوتات في لندن على تحقيقه، حيث طوّروا نظاماً جديداً باسم "جينيما" (Genima) لإجراء عملية ضبط دقيق لنظام ستيبل ديفيوجن لرسم حركات الروبوتات وتوجيهها ضمن بيئات المحاكاة والبيئات الحقيقية، وهو صالح للاستخدام مع أنواع مختلفة من الروبوتات والمهام، بدءاً من الأذرع الميكانيكية وصولاً إلى الروبوتات ذات الشكل البشري والسيارات الذاتية القيادة، إضافة إلى منظومات الويب الوكيلة. تعمل طريقة جينيما بالاعتماد على قدرة ستيبل ديفيوجن على تمييز الأنماط، فيصبح النموذج منظومة وكيلة أقرب إلى نظام لاتخاذ القرار، حيث يعمل النظام على تحويل الأفعال المطلوب تدريب الروبوت عليها إلى سلسلة من الكرات الملونة المضافة إلى الصور التي تلتقطها كاميراته لتحديد المواضع المطلوبة لمفاصله بعد ثانية واحدة، وترجمة هذه الكرات إلى أفعال، ومع أن نسب النجاح لم تكن مرتفعة للغاية، فإن الفريق متفائل إزاء إمكانية تحسينها وتوسيع نطاق تطبيقات البحث.

تستطيع نماذج الذكاء الاصطناعي التوليدي إنتاج الصور بناءً على أوامر نصية في غضون ثوانٍ وحسب، وقد شهدنا مؤخراً استخدامها في كل شيء بدءاً من تسليط الضوء على تحيزاتها الذاتية وصولاً إلى الحفاظ على ذكرياتنا العزيزة على قلوبنا.

والآن، يستخدم باحثون من مختبر ستيفن جيمس لتعليم الروبوتات في لندن نماذج ذكاء اصطناعي لتوليد الصور من أجل تحقيق هدف جديد، وهو إنشاء بيانات تدريبية للروبوتات. طوّر الباحثون نظاماً جديداً أطلقوا عليه اسم "جينيما" (Genima)، والذي يضبط نموذج الذكاء الاصطناعي لتوليد الصور ستيبل ديفيوجن (Stable Diffusion) من أجل رسم حركات الروبوتات، ما يساعد على توجيهها ضمن بيئات المحاكاة والبيئات الحقيقية. من المقرر تقديم البحث في مؤتمر تعلم الروبوتات (CoRL) الشهر المقبل.

اقرأ أيضاً: لماذا يجب أن تتعلم الروبوتات الكسل من البشر؟

تدريب الروبوتات على إنجاز مهام مختلفة باستخدام الصور

يمكن أن يزيد هذا النظام من سهولة تدريب أنواع مختلفة من الروبوتات على إنجاز مهام مختلفة، بدءاً من الأذرع الميكانيكية وصولاً إلى الروبوتات ذات الشكل البشري والسيارات الذاتية القيادة. كما يمكن له أيضاً أن يساعد على تحسين قدرات منظومات الويب الوكيلة التي تعمل بالذكاء الاصطناعي (AI web agents)، وهي تمثّل الجيل الجديد من أدوات الذكاء الاصطناعي التي تستطيع تنفيذ مهام معقدة بالحد الأدنى من الإشراف، في التصفح والنقر على الروابط التشعبية، على حد قول عالم الأبحاث المختص بأجهزة المناورات الروبوتية، موهيت شريدار، الذي شارك في المشروع.

ويقول: "يمكنك استخدام أنظمة توليد الصور لتحقيق الأشياء كلّها التي يمكنك تحقيقها في مجال الروبوتات تقريباً. لقد أردنا أن ندرس إمكانية الاستفادة من هذه النتائج المذهلة كلّها التي نحصل عليها بفضل تقنيات الانتشار واستخدامها في حل معضلات الروبوتات".

عندما يريد الباحثون تعليم روبوت كيفية إنجاز مهمة معينة، عادة ما يعمدون إلى تدريب شبكة عصبونية على صورة تتضمن ما يراه الروبوت أمامه. بعد ذلك، تقدّم الشبكة العصبونية مخرجات بصيغة مختلفة، مثل الإحداثيات المطلوبة للتحرك إلى الأمام.

أمّا النهج الذي يتبعه نظام جينيما فهو مختلف، لأن مدخلاته ومخرجاته ما هي إلا صور، وهو ما يُتيح للآلات أن تتعلم بسهولة أكبر، على حد قول طالب الدكتوراة المختص بتعليم الروبوتات في كلية إمبيريال كوليدج لندن، إيفان كابليوك، الذي لم يشارك في البحث.

يقول كابليوك: "إنه أمر رائع للغاية بالنسبة إلى المستخدمين أيضاً، لأنه يُتيح لهم رؤية المكان الذي سيتحرك الروبوت نحوه، والفعل الذي سينفذه. هذا يجعل الحركات التي ينفذها الروبوت أكثر قابلية للتفسير إلى حد ما، كما يعني أنه إن كنت تنوي تطبيق خوارزمية التحرك التي تعمل عليها، يمكنك اكتشاف الأخطاء قبل وقوعها، مثل اصطدام الروبوت بأحد الجدران أو ما شابه ذلك".

يعتمد جينيما في عمله على الاستفادة من قدرة ستيبل ديفيوجن على التعرف إلى الأنماط (مثل معرفة شكل الكوب لأنه تدرب مسبقاً على صور الأكواب) ثم تحويل النموذج إلى منظومة وكيلة من نوع ما أقرب إلى نظام لاتخاذ القرار.

مصدر الفيديو: موهيت شريدار، يات لونغ (ريتشي) لو، مختبر ستيفن جيمس لتعليم الروبوتات.

في البداية، عمد الباحثون إلى ضبط النموذج ستيبل ديفيوجن ضبطاً دقيقاً حتى يستطيعوا إضافة البيانات الصادرة عن مستشعرات الروبوت إلى الصور التي تلتقطها كاميراته.

اقرأ أيضاً: ما هو وكيل الذكاء الاصطناعي؟ وكيف يساعدك في حياتك اليومية؟

تنفيذ الأفعال المطلوبة من الروبوت

يجسد النظام الأفعال المطلوبة، مثل فتح صندوق أو تعليق وشاح أو التقاط دفتر، في شكل سلسلة من الكرات الملونة المتوضعة على الصورة. تحدد هذه الكرات للروبوت المواضع التي يجب أن تتحرك إليها مفاصله بعد ثانية واحدة في المستقبل.

يتضمن الجزء الثاني من العملية تحويل هذه الكرات إلى أفعال. نجح الفريق في تحقيق هذا الأمر باستخدام شبكة عصبونية أخرى، تحمل اسم "آكت" (ACT)، وهي شبكة مصممة بالاعتماد على البيانات نفسها. بعد ذلك، استخدم الفريق جينيما لإنجاز 25 عملية محاكاة و9 مهام من مهام المناورة الحركية في العالم الحقيقي باستخدام ذراع روبوتية. وبلغت نسبة النجاح في عمليات المحاكاة 50%، على حين بلغت 64% في عمليات التحريك.

على الرغم من أن نسب النجاح هذه ليست مرتفعة للغاية، فإن شريدار وفريقه متفائلون إزاء إمكانية تحسين سرعة الروبوت ودقته. ويولي الباحثون اهتماماً خاصاً بإمكانية تطبيق جينيما على نماذج الذكاء الاصطناعي لتوليد الفيديو، ما يمكن أن يساعد الروبوت على التنبؤ بسلسلة من الأفعال المستقبلية بدلاً من فعل واحد وحسب.

قد يكون البحث مفيداً على وجه الخصوص في تدريب الروبوتات المنزلية على طي الغسيل، وإغلاق الأدراج، وغير ذلك من المهام المنزلية. ومع ذلك فإن النهج العام لهذه الطريقة يجعلها غير محصورة بنوع محدد من الآلات، كما تقول طالبة الدكتوراة في جامعة واشنطن، زوي تشين، التي سبق لها أن استخدمت ستيبل ديفيوجن أيضاً في توليد بيانات لتدريب الروبوتات، لكنها لم تشارك في هذه الدراسة.

وتقول: "هذا اتجاه جديد رائع للغاية. وأعتقد أن هذه الطريقة قد تصلح لأن تكون طريقة عامة للحصول على بيانات تدريب لجميع أنواع الروبوتات".

المحتوى محمي