نموذج ذكاء اصطناعي هجين يسمح له بالتفكير المنطقي حول فيزياء العالم المحيط به كالأطفال

مجموعة بيانات جديدة تكشف مدى ضعف الذكاء الاصطناعي في المعالجة المنطقية، وتشير إلى مقاربة هجينة جديدة قد تمثل الطريق الأفضل لتحقيق التقدم في هذا المجال.

أسئلة كثيرة
تتألف مجموعة البيانات هذه، التي تعرف باسم كليفرر CLEVRER، من 20,000 مقطع فيديو قصير مُصطنع، وأكثر من 300,000 زوج من الأسئلة والأجوبة التي تتضمن معالجة منطقية للأحداث في هذه المقاطع. يبين كل مقطع فيديو عالماً بسيطاً من الأجسام الصغيرة التي تتصادم مع بعضها البعض في محاكاة تعتمد على القواعد الفيزيائية. في أحد هذه المقاطع، تصطدم كرة مطاطية حمراء بأسطوانة مطاطية زرقاء، التي تتابع طريقها لتصطدم بأسطوانة معدنية.

تتوزع الأسئلة على أربع فئات: أسئلة وصفية، مثل "ما شكل الجسم الذي اصطدم بالأسطوانة الزرقاء؟"، أسئلة تفسيرية، مثل "ما سبب اصطدام الأسطوانة الرمادية مع المكعب؟"، أسئلة توقعية، مثل "ماذا سيحدث بعد ذلك؟"، وأسئلة الواقع المغاير، مثل: "من دون وجود الجسم الرمادي، ما الحدث الذي لن يقع؟". تعبر هذه الأسئلة عن الكثير من المفاهيم التي يتعلمها الأطفال في وقت مبكر مع استكشافهم لمحيطهم. ولكن الفئات الثلاثة الأخيرة -التي تتطلب الإجابة عنها استخدام المنطق السببي على وجه الخصوص- تتسبب غالباً في الإرباك لأنظمة التعلم العميق.

الفشل
قام باحثون في هارفارد وديب مايند ومختبر واتسون للذكاء الاصطناعي التابع لإم آي تي وآي بي إم ببناء هذه المجموعة، وهي تهدف إلى المساعدة في تقييم قدرة الذكاء الاصطناعي على المعالجة المنطقية. عندما اختبر الباحثون عدة نماذج من أحدث أنظمة الرؤية الحاسوبية ومعالجة اللغة الطبيعية باستخدام هذه المجموعة، وجدوا أنها كانت تحقق نتائج جيدة مع الأسئلة الوصفية، ونتائج ضعيفة مع الأنواع الأخرى.

الجمع ما بين القديم والحديث
قام الفريق بعد ذلك باختبار نظام ذكاء اصطناعي جديد يجمع ما بين التعلم العميق والمنطق الصوري. كانت الأنظمة الصورية موضع الاهتمام الرئيسي للباحثين قبل أن يزيحها التعلم الآلي عن عرشها في الثمانينيات. ولكن كلا المقاربتين تتمتعان بنقاط قوة خاصة؛ حيث إن التعلم العميق يمتاز بإمكانية التضخم والتوسع والتعرف على الأنماط، في حين أن الأنظمة الصورية أكثر قدرة على التجريد والمعالجة المنطقية.

يستفيد النظام الهجين، الذي يُعرف باسم النظام العصبوني الصوري، من هذه الميزات جميعها، فهو يعتمد على شبكة عصبونية للتعرف على الألوان والأشكال والمواد في الأجسام، ويعتمد على المنطق الصوري لفهم فيزياء حركات هذه الأجسام والعلاقات السببية فيما بينها. تفوق هذا النظام على الأنظمة الموجودة سابقاً في جميع فئات الأسئلة.

أهمية هذا العمل
عندما كنا أطفالاً، تعلمنا مراقبة العالم من حولنا، واستنتاج سبب حدوث الأشياء، وتوقع ما سيحدث لاحقاً. تساعدنا هذه التوقعات على اتخاذ قرارات أفضل، والتحرك ضمن البيئة، والحفاظ على سلامتنا. إن نقل هذا النوع من الاستيعاب السببي إلى الآلات سيمكنها من التفاعل مع العالم بطريقة أكثر ذكاء.