الذكاء الاصطناعي ما زال يفتقر إلى المنطق السليم اللازم لفهم اللغة البشرية

كانت الحواسيب عاجزة تماماً عن إنتاج جمل مفهومة حتى وقت قريب. ولكن حقل معالجة اللغات الطبيعية NLP حقق إنجازات كبيرة، وأصبحت الآلات قادرة على توليد مقاطع نصية مُقنعة وبضغطة زر وحسب.

تحققت هذه الإنجازات بفضل أساليب التعلم العميق، التي تستطيع التقاط الأنماط الإحصائية في استخدام الكلمات وبنية الحجج من كميات هائلة من النصوص. ولكن تقريراً جديداً من معهد آلن للذكاء الاصطناعي يلفت انتباهنا إلى مشكلة ما زالت موجودة، فالآلات لا تفهم فعلياً ما الذي تكتبه أو تقرؤه.

تمثل هذه المسألة تحدياً كبيراً بالنسبة لسعينا نحو تحقيق الذكاء الاصطناعي العام، ولكن بغض النظر عن الإنجازات الأكاديمية، فإنها هامة بالنسبة للمستهلكين أيضاً؛ حيث إن بوتات الدردشة والمساعدات الصوتية، على سبيل المثال، مبنية على أحدث ما توصل إليه العلم في نماذج اللغة، وقد أصبحت واجهة للكثير من المؤسسات المالية، ومزودي الرعاية الصحية، والوكالات الحكومية. ومن دون فهم حقيقي للغة، فإن هذه الأنظمة ستبقى أكثر عرضة للفشل، مما يؤثر على إمكانية الاستفادة من خدمات هامة.

بنى الباحثون عملهم على أساس اختبار مخطط وينوجراد، وهو اختبار ابتُكر في 2011 لتقييم المعالجة بالمنطق السليم لأنظمة معالجة اللغة الطبيعية، ويعتمد هذا الاختبار على مجموعة من 273 سؤالاً تتضمن زوجاً من الجمل التي تختلف عن بعضها بكلمة واحدة فقط. وهذه الكلمة، التي تعرف باسم القادح (المحفِّز أو المفتاح)، تؤدي إلى قلب معنى الضمير في الجملة، كما في المثال التالي:
لا تتسع الكأس في الحقيبة البنية لأنها كبيرة للغاية.
لا تتسع الكأس في الحقيبة البنية لأنها صغيرة للغاية.

حتى يحقق نظام معالجة اللغة الطبيعية النجاح، عليه أن يحدد الخيار الذي يشير إليه الضمير. وفي هذه الحالة، يجب أن يختار "الكأس" في الجملة الأولى و"الحقيبة" في الجملة التالية حتى يحل المسألة بشكل صحيح.

صُمم الاختبار في البداية على أساس أن هذه المسائل لا يمكن حلها من دون فهم أعمق للدلالات، وحالياً تستطيع أحدث نماذج التعلم العميق أن تصل إلى دقة 90% تقريباً، ولهذا يبدو أن معالجة اللغة الطبيعية بدأت تقترب من تحقيق هدفها. ولكن في هذا البحث -الذي سيحصل على جائزة البحث المتميز في مؤتمر AAAI هذا الشهر- يشكك الباحثون في فعالية هذا المعيار، وبالتالي في مستوى التقدم الذي حققه هذا المجال.

قام الباحثون ببناء مجموعة بيانات أضخم بكثير، وأطلقوا عليها اسم وينوجراند، وتحوي 44,000 مسألة من نفس النوع. ولتحقيق هذا، اعتمدوا على خطة تعهيد جماعي لبناء أزواج الجمل الجديدة وتدقيقها بسرعة، ومن الجدير بالذكر هنا أن أحد أسباب صغر حجم مجموعة بيانات وينوجراد هي أنها مُصاغة بشكل مباشر من قِبل الخبراء. قام الباحثون على منصة ميكانيكال تيرك التابعة لأمازون بتأليف جمل جديدة تحوي كلمات مطلوبة تم اختيارها عبر عملية عشوائية. وبعد ذلك، عُرض كل زوج من الجمل على 3 عاملين إضافيين، واحتُفظ به لدى تحقيق 3 معايير: يجب أن يتمكن عاملان على الأقل من اختيار الأجوبة الصحيحة، ويجب أن تكون الخيارات غير غامضة بالنسبة للثلاثة، ويجب أن يكون من المستحيل استنتاج معنى الضمير عن طريق مطابقة بسيطة للكلمات.

في الخطوة الأخيرة، مرر الباحثون عناصر مجموعة البيانات على خوارزمية تقوم بإزالة ما أمكن من "الشوائب"، أي أنماط البيانات والترابطات غير المقصودة التي يمكن أن تساعد نموذج اللغة على معرفة الإجابات الصحيحة ولكن للأسباب الخاطئة، وهو ما يقلل من احتمال أن يتمكن النموذج من الالتفاف على قاعدة البيانات.

عند اختبار أحدث النماذج على هذه المسائل الجديدة، انخفض الأداء إلى ما بين 59.4% و79.1%، في حين أن البشر وصلوا إلى دقة 94%. وهذا يعني أن النتيجة المرتفعة في اختبار وينوجراد الأصلي مبالغ بها على الأرجح. تقول ييجين تشوي، وهي أستاذة مساعدة في جامعة واشنطن وباحثة أساسية في معهد آلن وقائدة البحث: "إنه مجرد إنجاز يتعلق بقاعدة بيانات محددة، وليس إنجازاً حول مهمة عامة".

وتأمل تشوي بأن تصبح قاعدة البيانات هذه معياراً جديداً. ولكنها تأمل أيضاً أنها ستلهم المزيد من الباحثين بمحاولة تجاوز التعلم العميق؛ فقد أكدت هذه النتائج لها أن المنطق السليم الحقيقي لأنظمة معالجة اللغة الطبيعية يجب أيضاً أن يتضمن تقنيات أخرى، مثل نماذج المعرفة الهيكلية. ويبين عملها السابق آفاقاً واعدة في هذا الاتجاه، وتقول: "يجب علينا أن نتوصل إلى طريقة مختلفة بشكل أو بآخر".

غير أن البحث لم ينجُ من الانتقادات. ويقول إرنست ديفيس، وهو أحد الباحثين الذين عملوا على اختبار وينوجراد الأصلي، إن الكثير من أمثلة أزواج الجمل في البحث تعاني من "أخطاء فادحة" بسبب صيغتها المربكة قواعدياً. وقد كتب في رسالة بالبريد الإلكتروني: "إن هذه الأمثلة لا تتوافق فعلياً مع طريقة استخدام الضمائر لدى المتحدثين بالإنجليزية".

ولكن تشوي تشير إلى أن النماذج المتماسكة حقاً يجب ألا تحتاج إلى صياغة مثالية قواعدياً حتى تتمكن من فهم الجملة؛ حيث إن من يتكلمون الإنجليزية كلغة ثانية يخطؤون في القواعد أحياناً، ولكنهم يوصلون المعنى الصحيح على أي حال. وتقول مشيرةً إلى الدقة البشرية البالغة 94%: "يستطيع البشر فهم فحوى الأسئلة واختيار الإجابة الصحيحة بسهولة. وإذا تمكن البشر من تحقيق هذا، فإني أعتقد أن الآلات يجب أن تتمكن من تحقيق هذا أيضاً".