طوّر باحثون من جامعة إم آي تي نموذجاً للذكاء الاصطناعي يمكنه فهم العلاقات الأساسية بين الأشياء الفردية بذات الطريقة التي يفهمها بها البشر. وسيُقدّم البحث في مؤتمر أنظمة معالجة المعلومات العصبونية (NeurIPS2021) في ديسمبر/كانون الأول من العام الجاري.
ما الجديد في نموذج الذكاء الاصطناعي الذي يفهم العلاقات بين الأشياء؟
يستطيع البشر فهم العلاقات بين الأشياء المنتشرة حولهم بسهولة، مثل وجود حاسوب محمول على طاولة بجانب الهاتف. وذلك وذلك على عكس العديد من نماذج التعلم العميق التي تكافح لرؤية العالم بهذه الطريقة لأنها لا تفهم العلاقات المتشابكة بين الأشياء. وبدون معرفة هذه العلاقات، ستواجه الروبوتات صعوبة في تنفيذ بعض الأوامر. على سبيل المثال، لن يتمكن الروبوت المصمم للمساعدة في المطبخ من تنفيذ أمر مثل: "التقط الملعقة الموجودة على يسار الموقد وضعها فوق لوح التقطيع".
بمساعدة النموذج الذي طوره الباحثون الآن، أصبح بالإمكان حل هذه المشكلة، وذلك عن طريق فهم العلاقات الفردية بين الأشياء، ثم جمعها معاً لفهم العلاقات الأكثر تعقيداً، أي أنه يصبح بإمكان الروبوتات تنفيذ مهام معقدة ومتعددة الخطوات مثل تجميع الأجهزة. بالإضافة إلى ذلك، ساعدنا هذا النموذج في التقدم خطوة جديدة نحو تطوير الآلات التي يمكنها التعلم من بيئاتها والتفاعل معها مثلما يفعل البشر.
بكلمات أخرى، يمكن للروبوتات معرفة موضع شيء ما بتحديد موقعه ضمن الفراغ، لكن البشر يمكنهم تحديد موضعه حسب علاقته بالأشياء من حوله. هذا ما تمكّن الباحثون من تطبيقه الآن، إذ يعتمد النموذج على إنشاء صورة لمشهد ما بناءً على وصف نصي للأشياء وعلاقاتها، وذلك باستخدام تقنية من تقنيات التعلم الآلي تسمى «نمذجة الطاقة». تسمح هذه التقنية باستخدام نموذج واحد قائم على الطاقة لترميز وصف واحد، ثم دمجها معاً بطريقة تتمكن من خلالها فهم جميع الأشياء والعلاقات فيما بينها.
شرح الباحثون ذلك بمثال نصي: "طاولة خشبية على يسار الكرسي الأزرق. أريكة حمراء على يمين الكرسي الأزرق". وقالوا إن النظام يقسم هذه الجملة إلى جزأين أصغر، لفهم كل علاقة فردية على حدة، ثم نمذجتها. بعد ذلك، يمكن دمج هذين الجزأين من خلال عملية تحسين، تؤدي إلى إنشاء صورة للمشهد.
يقول مؤلف الدراسة «ييلون دو»، طالب دكتوراه في مختبر علوم الحاسوب والذكاء الاصطناعي: "نظراً لأننا نؤلف هذه النماذج الصغيرة المنفصلة معاً، يمكننا نمذجة عدد أكبر من العلاقات والتكيف مع مجموعات جديدة".
وعلى العكس من ذلك، يمكن للنظام أيضاً إيجاد أوصاف نصية من العلاقات بين الأشياء التي أمامه. وعند إعطائه وصفاً جديداً، يمكنه إعادة ترتيب الأشياء لإخراج صورة جديدة تتطابق مع الوصف.
اقرأ أيضاً: رؤية آلية تستخدم طريقة البشر في التعرف على الأشياء
وأكثر من ذلك..
تفوّق النموذج الجديد على نماذج التعلم العميق الأخرى التي تتبع الوصف النصي لتوليد صورٍ للأشياء مع العلاقات فيما بينها. كما عمل النموذج جيداً مع المشاهد المعقدة المحتوية على 3 علاقات وذلك بنسبة 91%.
يؤكد «دو» ذلك بقوله: "أحد الأشياء التي وجدناها مثيرةً للاهتمام هو أنه بالنسبة لنموذجنا، يمكننا زيادة جملة الوصف من وصف علاقة واحدة إلى اثنتين أو ثلاثة أو حتى أربعة، ويستمر نهجنا في تكوين صور يتم وصفها بشكل صحيح، بينما تفشل الطرق الأخرى".
بالإضافة إلى ذلك، استطاع النموذج فهم الأوصاف المتماثلة، فعندما أعطاه الباحثون وصفين مختلفين يصفان الصورة ذاتها، تمكّن النموذج من فهم أن الأوصاف متكافئة.
أيضاً، عرض الباحثون صوراً لمشاهد لم تُعرض على النموذج من قبل، مع عدة أوصاف نصية للصور، وكان بإمكانه تحديد الوصف المناسب للعلاقات في كل صورة.
يؤكد الباحثون أن هذا النموذج هو الأقرب لعمل البشر، فالبشر يمكنهم استخراج عدة بيانات مفيدة من أمثلة قليلة، ودمجها معاً لإنشاء معلومات أكثر. يتمتع النموذج أيضاً بهذه الخاصية، إذ يمكنه التعلم من عدد قليل من البيانات، ثم تعميمها على صور أو مشاهد أكثر تعقيداً.
يريد الباحثون دمج هذا النموذج في أنظمة الروبوتات لتتمكن من استنتاج العلاقات بين الأشياء من مقاطع الفيديو، ثم تطبيقها لمعالجة الأشياء في العالم الواقعي. ويرغب الباحثون أيضاً في رؤية كيف سيكون أداء النموذج في الخلفيات الصاخبة، والأشياء التي يحجب بعضها بعضاً.