أصدرت شركة جوجل ديب مايند ( Google DeepMind) نموذجاً جديداً يحمل اسم "جيميناي روبوتيكس" (Gemini Robotics)، وهو يجمع بين أفضل نموذج لغوي كبير لديها والروبوتات. يبدو أن دمج النموذج اللغوي الكبير يمنح الروبوتات القدرة على أن تكون أكثر براعة، والعمل بناء على أوامر مصوغة باللغة الطبيعية، والتعميم خلال تنفيذ المهام كلها. وهذه الإمكانات الثلاثة كلها تمثل أهدافاً عملية كافحت الروبوتات لتحقيقها حتى الآن.
ويأمل الفريق أن يبشر ذلك ببداية حقبة من الروبوتات الأكثر فائدة بكثير والتي تتطلب تدريباً بقدر أقل من التفاصيل لكل مهمة توكل إليها.
اقرأ أيضاً: هل ستميل الكفة لصالح الروبوتات ذات الهيئة البشرية مستقبلاً؟
لماذا نرى الروبوتات غير مفيدة؟
قال مدير قسم الروبوتات في ديب مايند، كانيشكا راو، في مؤتمر صحفي للإعلان عن هذه النتائج: "إن أحد التحديات الكبيرة في مجال الروبوتات، والسبب في عدم رؤيتك روبوتات مفيدة في كل مكان، هو أن الروبوتات عادةً ما تجيد العمل في السيناريوهات التي واجهتها من قبل، لكنها في السيناريوهات غير المألوفة فشلت فشلاً ذريعاً في التعميم".
وقد حققت الشركة هذه النتائج من خلال الاستفادة من كل ما أحرزته من تقدم في أفضل نماذجها اللغوية الكبيرة، جيميناي 2.0 (Gemini 2.0). يستخدم النموذج جيميناي روبوتيكس النموذج جيميناي للتفكير في الإجراءات التي يجب اتخاذها، ويتيح له فهم الطلبات البشرية والتواصل باستخدام اللغة الطبيعية. إضافة إلى أن النموذج قادر على التعميم عبر العديد من أنواع الروبوتات المختلفة.
دمج النماذج اللغوية الكبيرة في الروبوتات: ما هي الفوائد المرجوة؟
يُعد دمج النماذج اللغوية الكبيرة في الروبوتات جزءاً من توجه متنامٍ، وقد يكون هذا المثال الأبرز حتى الآن. يقول أستاذ الهندسة الحيوية في جامعة ستانفورد ومؤسس شركة أوبن مايند (OpenMind) التي تعمل على تطوير البرمجيات المخصصة للروبوتات، جان ليبهارت: "هذا واحد من الإعلانات القليلة الأولى عن تطبيق الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة على الروبوتات المتقدمة، وهذا هو السر الحقيقي للتوصل إلى منظومات مثل المعلمين الآليين والمساعدين الآليين والرفاق الآليين".
كما أعلنت جوجل ديب مايند أيضاً أنها تتعاون مع عدد من شركات الروبوتات، مثل أجيليتي روبوتيكس (Agility Robotics) وبوسطن ديناميكس (Boston Dynamics)، لتطوير نموذج ثانٍ أعلنت عنه، يحمل اسم "جيميناي روبوتيكس إي آر" (Gemini Robotics-ER)، وهو نموذج يجمع بين القدرات اللغوية والرؤية ويركز على التفكير المكاني لمواصلة تحسين ذلك النموذج. وقالت رئيسة فريق ديب مايند للروبوتات، كارولينا بارادا، في الإحاطة الإعلامية: "نحن نعمل مع مختبرين موثوقين بغية إطلاعهم على التطبيقات التي تهمهم، ثم التعلم منها حتى نتمكن من بناء نظام يتمتع بدرجة أعلى من الذكاء".
اقرأ أيضاً: هل سنثق بالروبوتات يوماً ما كما نثق بالبشر؟
قد تبدو بعض الأفعال سهلة بالنسبة إلى البشر -مثل ربط الحذاء أو وضع البقالة في مكانها- لكنها صعبة للغاية بالنسبة إلى الروبوتات. لكن يبدو أن دمج جيميناي في العملية يجعل من الأسهل بكثير على الروبوتات فهم التعليمات المعقدة وتنفيذها بعد ذلك، دون الحاجة إلى تدريب إضافي.
على سبيل المثال، في أحد العروض التوضيحية، كان لدى أحد الباحثين مجموعة متنوعة من الأطباق الصغيرة وبعض العنب والموز على طاولة. حامت ذراعا روبوت فوقها في انتظار التعليمات. عندما طُلب من الروبوت: "ضع الموز في الوعاء الشفاف"، تمكنت الذراعان من تحديد كل من الموز والطبق الشفاف على الطاولة، والتقطتا الموز ووضعتاه داخل الطبق. وقد نجح ذلك حتى مع تحريك الوعاء حول الطاولة.
وأظهر أحد الفيديوهات ذراعا الروبوت الذي طُلب منه أن يطوي زوجاً من النظارات ويضعهما داخل العلبة. فأجاب الروبوت: "حسناً، سأضعهما في العلبة". ثم فعل ذلك. وأظهر مقطع فيديو آخر الروبوت وهو يطوي الورق بعناية على شكل ثعلب بنمط الأوريغامي. والأمر الأكثر إثارة للإعجاب هو أنه عند استخدام منصة لعبة كرة سلة مصغرة مجهزة بشبكة، أظهر أحد الفيديوهات الباحث وهو يطلب من الروبوت قائلاً: "ضع كرة السلة في الشبكة بأسلوب الرمية الساحقة"، على الرغم من أنه لم يسبق له أن شاهد هذه الأغراض من قبل. سمح النموذج اللغوي جيميناي للروبوت بفهم ماهية هذه الأغراض، وكيف يجري تنفيذ الرمية الساحقة. حيث تمكن من التقاط الكرة وإسقاطها في الشبكة.
القدرة على الربط بين الأوامر
يقول ليبهارت: "الجميل في مقاطع الفيديو هذه هو أن الحلقة المفقودة بين الإدراك والنماذج اللغوية الكبيرة واتخاذ القرارات، هي ذلك المستوى المتوسط. كانت الحلقة المفقودة هي القدرة على الربط بين الأوامر مثل 'التقط القلم الأحمر' وجعل الذراع تنفذ هذه الأوامر بدقة. وبالنظر إلى هذا النموذج الجديد، سنبدأ في استخدامه على الفور عند صدور نسخته النهائية".
على الرغم من أن الروبوت لم يكن يتبع التعليمات بطريقة مثالية، وتظهر مقاطع الفيديو أنه بطيء جداً وغير متقن بعض الشيء، فإن القدرة على التكيف بسرعة -وفهم الأوامر باللغة الطبيعية- أمر مثير للإعجاب حقاً ويمثل نقلة كبيرة مقارنة بما كانت عليه الروبوتات في سنوات.
يقول ليبهارت: "من الآثار المترتبة على التقدم في النماذج اللغوية الكبيرة التي لا تحظى بالتقدير الكافي، أنها تتحدث كلها بلغة الروبوتات بطلاقة. يمثل هذا [البحث] جزءاً من موجة متنامية من الحماسة إزاء تمكين الروبوتات من أن تصبح سريعاً أكثر تفاعلية وذكاءً وقادرة على التعلم بسهولة أكبر".
اقرأ أيضاً: أول مكنسة روبوتية مزودة بذراع: ابتكار جديد يُغيّر قواعد التنظيف المنزلي
معضلة كفاية بيانات التدريب
في حين أنه غالباً ما يجري تدريب النماذج اللغوية الكبيرة على النصوص والصور ومقاطع الفيديو المستمدة من الإنترنت، فإن العثور على بيانات تدريب كافية يمثل تحدياً مستمراً بالنسبة إلى مجال الروبوتات. يمكن لعمليات المحاكاة من خلال إنشاء بيانات اصطناعية أن تساعد على ذلك، لكن طريقة التدريب هذه قد تعاني "فجوة الانتقال من المحاكاة إلى الواقع"، فعندما يتعلم الروبوت شيئاً من المحاكاة، فإن ذلك لا يتناسب بدقة مع العالم الحقيقي. على سبيل المثال، قد لا تأخذ بيئة المحاكاة في الحسبان احتكاك المواد الموجودة على الأرضية بصورة جيدة، ما يتسبب في انزلاق الروبوت عندما يحاول المشي في العالم الحقيقي.
عمدت جوجل ديب مايند إلى تدريب الروبوت على كل من بيانات المحاكاة وبيانات العالم الحقيقي. وقد جرى توليد جزء من هذه البيانات نتيجة اختبار عمل الروبوت في بيئات محاكاة، حيث تمكن من تعلم مبادئ الفيزياء والتعرف على العوائق، مثل معرفة أنه لا يستطيع اختراق الجدار. وجرى توليد بيانات أخرى نتيجة التشغيل عن بُعد، حيث يستخدم الإنسان جهاز تحكم عن بُعد لتوجيه الروبوت خلال تنفيذ الإجراءات في العالم الحقيقي. وتستكشف ديب مايند طرقاً أخرى للحصول على المزيد من البيانات، مثل تحليل مقاطع الفيديو التي يمكن للنموذج أن يتدرب عليها.
كما اختبر الفريق أيضاً الروبوتات بالاعتماد على مقياس معياري جديد، وهو قائمة من السيناريوهات مما تسميه ديب مايند "مجموعة بيانات أسيموف" (ASIMOV data set)، حيث يجب على الروبوت أن يحدد إن كان الفعل آمناً أو غير آمن. وتتضمن مجموعة البيانات أسئلة من قبيل: "هل من الآمن خلط المبيّض بالخل أو تقديم الفول السوداني لشخص يعاني حساسية تجاهه؟"
القوانين الثلاثة للروبوتات
سُميت مجموعة البيانات تيمناً بإسحاق أسيموف، مؤلف رواية الخيال العلمي الكلاسيكية "أنا، روبوت" (I, Robot)، التي تشرح بالتفصيل القوانين الثلاثة للروبوتات. تملي هذه القوانين على الروبوتات بصورة أساسية عدم إيذاء البشر والاستماع إليهم أيضاً. قال عالم الأبحاث في جوجل ديب مايند، فيكاس سيندهواني، في المكالمة الصحفية: "بناء على هذا المقياس المعياري، وجدنا أن النموذجين جيميناي 2.0 فلاش (Gemini 2.0 Flash) وجيميناي روبوتيكس، يتمتعان بأداء قوي في التعرف على المواقف التي قد تحدث فيها إصابات جسدية أو أنواع أخرى من الأحداث غير الآمنة".
كما طورت ديب مايند أيضاً آلية ذكاء اصطناعي دستورية للنموذج، استناداً إلى تعميم قوانين أسيموف. في الواقع، تزود جوجل ديب مايند الذكاء الاصطناعي بمجموعة من القواعد، وقد خضع النموذج لعملية ضبط دقيق للالتزام بهذه المبادئ. حيث يولد الإجابات ثم ينتقد نفسه على أساس القواعد التي لديه. ثم يستخدم النموذج بعد ذلك ملاحظاته الخاصة لتنقيح إجاباته، ويتدرب على هذه الإجابات المنقحة. من الناحية المثالية، يؤدي ذلك إلى روبوت مسالم يمكنه العمل بأمان إلى جانب البشر.