فيسبوك تدرّب مساعدين روبوتيين على السمع والرؤية

في يونيو 2019، قام مختبر الذكاء الاصطناعي التابع لشركة فيسبوك، فير (FAIR)، بإطلاق منصة جديدة للمحاكاة تحمل اسم "إيه آي هابيتات" لتدريب وكلاء الذكاء الاصطناعي. وقد سمحت هذه المنصة للوكلاء باستكشاف بيئات افتراضية واقعية متنوعة، مثل شقة مفروشة أو مكتب مليء بالحجيرات. يمكن بعد ذلك تحويل الذكاء الاصطناعي إلى روبوت، الذي سيكتسب الذكاء للتنقل عبر العالم الحقيقي دون اصطدامات.

خلال السنة التي تلت ذلك الإعلان، قام فير بتوسيع آفاق عمله على "الذكاء الاصطناعي المتجسد". في منشور مدونة، أعلن المختبر مؤخراً عن ثلاثة إنجازات إضافية تم تحقيقها: خوارزميتان جديدتان تسمحان لوكيل ذكاء اصطناعي بإنشاء خريطة للأماكن التي يتجول فيها بسرعة وتذكرها، وبإضافة الأصوات إلى المنصة لتدريب الوكلاء على السمع.

تعتمد الخوارزميات على عمل فير في يناير من هذا العام، عندما تم تدريب وكيل ذكاء اصطناعي في منصة هابيتات على التنقل ضمن بيئات غير مألوفة من دون خريطة. وباستخدام كاميرا تستشعر العمق، ونظام تحديد المواقع، وبيانات البوصلة فقط، تعلم الوكيل دخولَ الأماكن مثلما يفعل الإنسان، والعثور على أقصر طريق يمكن أن يوصله إلى وجهته دون سلوك منعطفات خاطئة، أو التراجع، أو الاستكشاف.

بإمكان الخوارزمية الأولى -من بين الخوارزميتين الجديدتين- الآن بناءَ خريطة للمكان في الوقت نفسه، ما يسمح للوكيل بتذكر البيئة والتنقل خلالها على نحو أسرع إذا عاود زيارتها. أما الخوارزمية الثانية، فتعمل على تحسين قدرة الوكيل على رسم خريطة للمكان دون الحاجة إلى زيارة كافة أرجائه. بعد أن يتم تدريب الوكيل على ما يكفي من البيئات الافتراضية، يمكنه أن يتوقع معالم معينة في بيئة جديدة؛ حيث يمكنه أن يعرف، على سبيل المثال، أنه من المحتمل وجود مساحة أرضية فارغة خلف منضدة المطبخ دون التنقل إلى الجانب الآخر بغرض البحث. مرة أخرى، يسمح هذا للوكيل في نهاية المطاف بالتحرك عبر البيئة بشكل أسرع.

أخيراً، قام المختبر أيضاً بإنشاء ساوند سبيسز، وهي أداة لعرض الأصوات تتيح للباحثين إضافة صوتيات واقعية للغاية إلى بيئة معينة؛ حيث يمكنها عرض الأصوات الناجمة عن ضرب قطع مختلفة من الأثاث، أو الأصوات التي تصدر عن الأحذية ذات الكعب العالي مقارنة بالأحذية الرياضية أثناء السير على إحدى الأرضيات. هذه الإضافة تمنح هابيتات القدرة على تدريب الوكلاء على إنجاز المهام التي تتطلب كلاً من الاستشعار البصري والاستشعار السمعي، مثل "اجلب لي هاتفي الذي يرن"، أو "افتح الباب عندما يطرق شخص معين".

من بين التطورات الثلاثة التي تحققت، يعتبر تدريب إضافة الأصوات هو الأكثر إثارة، كما يقول آني كيمبهافي، الباحث في مجال الروبوتات في معهد آلن للذكاء الاصطناعي، والذي لم يشارك في العمل. وقد ركزت أبحاث مماثلة في الماضي بشكل أكبر على منح الوكلاء القدرة على الرؤية أو الاستجابة للأوامر النصية. يقول كيمبهافي: "تمثل إضافة الصوت خطوة تالية أساسية ومثيرة. أعتقد أن هناك العديد من المهام المختلفة التي تلعب فيها المدخلات الصوتية دوراً مفيداً للغاية". ويقول بيتر أبيل، مدير مختبر التعلم الآلي في جامعة كاليفورنيا في بيركلي؛ إن الجمع بين الرؤية والصوت على وجه الخصوص يمثل "مجالاً بحثياً لم ينل حقه من البحث بعد".

يقول باحثو فير إن كلاً من هذه التطورات الحاصلة تقرّب المختبر بشكل تدريجي من إنجاز مساعدين روبوتيين أذكاء. يتمثل الهدف في أن يتمكن هؤلاء المساعدون من التحرك برشاقة، وإنجاز مهام معقدة مثل الطهي.

ولكن، لا يزال أمامنا وقت طويل قبل أن نتمكن من إطلاق العنان للمساعدين الروبوتيين في المطبخ. وإحدى العقبات العديدة التي سيتعين على فير أن يتجاوزها تتمثل في استخدام كافة التدريبات الافتراضية في العالم المادي، وهي عملية تعرف باسم نقل المحاكاة إلى الواقع (sim2real). عندما قام الباحثون بادئ الأمر باختبار خوارزمياتهم للتدريب الافتراضي في الروبوتات الفيزيائية، لم تَجرِ العملية على ما يرام.

وبغية المضي قدماً، يأمل باحثو فير أن يتم البدء في إضافة القدرات التفاعلية ضمن هابيتات أيضاً. يقول كريستن جراومان، العالم الباحث في مختبر فير، وبروفيسور علم الحاسوب في جامعة تكساس في أوستن، والذي قاد جزءاً من العمل: "لنفترض أنني وكيل ذكاء اصطناعي، أسير إلى الداخل وأرى هذه الأغراض. ما الذي يمكنني أن أفعله بها؟ إلى أين سأذهب إذا كان يفترض بي أن أعد كعكة سوفليه؟ ما الأدوات التي سأختارها؟ هذا النوع من التفاعلات -وحتى التغيرات القائمة على التلاعب التي تطرأ على البيئة المحيطة- ستنقل هذا النوع من العمل إلى مستوى آخر. إنه أمر نسعى إلى تحقيقه بشكل حثيث".