إذا ضِعت في نيويورك بدون هاتف ذكي أو خريطة، فستلجأ غالباً إلى أحد السكان لمعرفة الاتجاهات، وقد قرر باحثو فيسبوك تدريب برامج الذكاء الاصطناعي على فعل هذا الشيء بالضبط، ويأملون لهذا العمل أن يجعل هذه البرامج أكثر براعة في استخدام اللغة في نهاية المطاف.
حيث قامت مجموعة فيسبوك لأبحاث الذكاء الاصطناعي -والتي تسمى اختصاراً "فير FAIR"- ببناء برنامجين؛ "سائح" ضائع في نيويورك، و"دليل" مصمم لمساعدة البرنامج الضائع في العثور على طريقه باستخدام إرشاداتٍ باللغة الطبيعية؛ حيث يرى السائح صوراً من العالم الحقيقي، على حين يرى الدليل خريطة ثنائية الأبعاد مع العلامات المميزة للمناطق، ويجب أن يعملا معاً من أجل الوصول إلى وجهة معينة.
تقوم الفكرة على تعلم العلاقة بين الإرشادات، وبين الأشياء في العالم الحقيقي مثل المطعم أو الفندق، تماماً كما يتعلم الطفل ربط الكلمات بالأشياء والأفعال الحقيقية؛ بحيث تبدأ خوارزمية السائح أن تستوعب طبيعة هذه الأشياء بشكل فعلي، أو على الأقل كيف تبدو ضمن منظر بسيط للشارع في العالم الحقيقي، ويأمل باحثو الذكاء الاصطناعي أن تصبح الخوارزميات التي تتعلم بهذه الطريقة أكثر براعة في استخدام اللغة.
وما زالت اللغة من أكبر التحديات التي تواجه الذكاء الاصطناعي؛ إذ من السهل بناء خوارزميات قادرة على الاستجابة لأوامر بسيطة، أو حتى إجراء حوار بسيط، ولكن يستحيل على الآلات الدخول في حوار معقد، ويعود هذا جزئياً إلى أن فك غموض اللغة وتعدد معانيها يتطلب بعض المعرفة العامة بالعالم الحقيقي، وإن إعطاء الخوارزمية بعض القواعد البسيطة أو تدريبها بكميات كبيرة من النصوص يؤدي غالباً إلى حوادث سوء فهم طريفة.
يقول الباحثون في منشور حول الموضوع في إحدى المدونات: "من الطرق التي يمكن أن نتبعها لبناء ذكاء اصطناعي يفهم اللغة مثل البشر هو تدريب هذه الأنظمة بأسلوب أقرب إلى الطبيعة، أي ربط اللغة ببيئات محددة، وتعتمد هذه المقاربة -التي تسمى أحياناً بالذكاء الاصطناعي المتجسد- على التعلم ضمن سياق البيئة المحيطة بالنظام، تماماً كما يتعلم الأطفال أسماء الأشياء التي يرونها ويلمسونها، وذلك بدلاً من تدريبه بكميات كبيرة من المعلومات النصية".
ويعتبر بحث فيسبوك محاولة لإعطاء خوارزميات الذكاء الاصطناعي شيئاً من المنطق السليم، وذلك عن طريق تأسيس فهمها للغة على تمثيلٍ بسيط للعالم الحقيقي.
وقد ظهرت فكرة الذكاء الاصطناعي المتجسد منذ فترة، ولكن أغلب الجهود في هذا الاتجاه كانت تعتمد على بيئات المحاكاة بدلاً من الصور الحقيقية، صحيح أن الواقعية تصعب الأمر أكثر، إلا أنها هامة للغاية إذا أردنا أن تصبح أنظمة الذكاء الاصطناعي أكثر فائدة.
وقد استخدم الباحثون كاميرا محيطية بزاوية 360 درجة لالتقاط صور لأحياء نيويورك، بما فيها هيلز كيتشن، والمقاطعة المالية، والحي الشرقي الأعلى، وويليامزبيرج. كما أجروا بعض التجارب التي سُمح فيها للخوارزميات بتجريب بروتوكولات لغوية خاصة بها، ومن المثير للاهتمام أنهم وجدوا أن هذا الأسلوب أعطى أفضل النتائج.
سيطلق باحثو فيسبوك الرماز البرمجي لهذا المشروع -والذي سُمي "Walk the Talk"- على أمل أن يستخدمه باحثون آخرون في أبحاث أخرى في الذكاء الاصطناعي المتجسد وخوارزميات اللغة.