الأهداف التي يسعى مجال معالجة اللغة الطبيعية إلى تحقيقها في حاجة إلى التقويم

في أي اجتماع سنوي معتاد لجمعية اللسانيات الحاسوبية (إيه سي إل)، يتضمن البرنامج مجموعة من العناوين الرنانة مثل: دراسة لمرمز ذاتي تباينيّ هيكليّ للتصريف التشكيلي السياقي. لا تقتصر هذه المسحة التقنية المبهرجة على العناوين، بل تمتد إلى الأبحاث نفسها، وأحاديث الباحثين، بل حتى الدردشات التي تدور في العديد من أروقة الأحداث والمناسبات الأكاديمية.

ولكن، في مؤتمر هذا العام الذي انعقد في يوليو، كان هناك شيء ما بدا مختلفاً، وليس فقط من ناحية الشكل الافتراضي؛ فقد كانت أحاديث الحضور تتصف بدرجة غير معتادة من التعمّق حول الأساليب والأهداف الأساسية لمعالجة اللغة الطبيعية (ويُشار لها اختصاراً: إن إل بي)، وهي فرع الذكاء الاصطناعي الذي يُعنى ببناء الأنظمة القادرة على تحليل اللغات البشرية أو توليدها. أما الأوراق البحثية التي قُدمت ضمن التوجه العام الجديد هذا العام فتطرح تساؤلات من النمط التالي: هل الأساليب الحالية كافية حقاً لتحقيق الأهداف الجوهرية لهذا المجال؟ وبالأحرى، ما هي هذه الأهداف فعلياً؟

أعتقد أنا وزملائي في إيليمينتال كوجنيشن -وهي شركة لأبحاث الذكاء الاصطناعي مقرها في كل من كونيكتيكت ونيويورك- أن هذه الهواجس مبررة. وفي الواقع، فنحن نعتقد أن هذا المجال يحتاج إلى تحول شامل، ليس فقط من ناحية تصميم الأنظمة، بل في ناحية أقل وضوحاً أيضاً، وهي: التقييم.

نشأ الطابع الحالي للبرمجة اللغوية العصبية من حوالي عقد كامل من التحسينات المطردة ضمن منظومة معيارية للتقييم. وبشكل عام، كانت قدرة الأنظمة على الاستيعاب تُقاس عن طريق مجموعات بيانات معيارية قياسية تتضمن الآلاف من الأسئلة، التي يرتبط كل منها بمقطع يحتوي على الإجابة. وعندما اكتسحت الشبكات العصبونية العميقة هذا المجال في منتصف العقد الحالي، أدت إلى قفزة نوعية في الأداء. ومع تكرار التجارب وتحسين الأنظمة، بدأت نتائج الاختبارات تقترب شيئاً فشيئاً من تحقيق العلامة الكاملة 100%، أو على الأقل، مضاهاة البشر.

ولهذا، كان الباحثون ينشرون مجموعات جديدة من البيانات تتضمن أسئلة أكثر صعوبة، وكانوا يشهدون ظهور شبكات عصبونية أكبر حجماً (من حيث عدد المتحولات الوسيطة) تحقق نتائج أفضل، وبسرعة. وإن الكثير من الأبحاث الحالية حول استيعاب النصوص المكتوبة تتضمن تعديلاتٍ دقيقة للنماذج، وذلك في محاولة لكسب بضع نقاط مئوية إضافية في نتائج الأداء المطبق على أحدث مجموعات البيانات. وتحولت كلمة "الأحدث" من صفة إلى اسم مستقل بحد ذاته: "لقد تغلبنا على الأحدث بفارق 2.4 في مجموعة ستانفورد المعيارية للأسئلة والأجوبة SQuAD"!

غير أن هذه المنافسة المحمومة على المراتب الأولى بدأت تصبح مملة وعديمة الجدوى بالنسبة للكثير من الأشخاص في هذا المجال. فما الفائدة التي تعود على العالم بشكل فعلي إذا حققت شبكة عصبونية ضخمة المرتبةَ الأولى وفق معيار ما بفارق نقطة أو اثنتين؟ لا أحد يكترث بالإجابة على هذه الأسئلة بحد ذاتها، ما يجعل الفوز بالمراتب الأولى مجرد ممارسة أكاديمية قد لا تؤدي إلى تحسين الأدوات المستخدمة في العالم الحقيقي. وبالفعل، فإن الكثير من التحسينات الظاهرية لا تُعزى إلى قدرات الاستيعاب العام، بل إلى البراعة الاستثنائية لهذه النماذج على استغلال الأنماط الزائفة الكامنة في البيانات. هل ساهمت "التطورات" الحديثة فعلياً في حل مشاكل البشر؟

ليست هذه الشكوك مجرد أفكار مجردة؛ حيث إن قدرة هذه الأنظمة على استيعاب اللغة يمكن أن تؤثر فعلياً على المجتمع. وبطبيعة الحال، فإن "الاستيعاب" يتضمن مجموعة واسعة من المهارات. فبالنسبة للتطبيقات البسيطة، مثل جلب المعلومات من ويكيبيديا أو تحديد المشاعر الكامنة في تقييمات المنتجات، فإن الأساليب الحديثة فعالة إلى حد كبير. ولكن عندما يفكر الناس في الحواسيب التي تستوعب اللغة، فإنهم يتخيلون سلوكيات أكثر تعقيداً بكثير، مثل أدوات قانونية تساعد الناس في تحليل مشاكلهم، وأنظمة للمساعدة البحثية تقوم بتركيب المعلومات من كافة أنحاء شبكة الويب العالمية، وروبوتات أو شخصيات ألعاب يمكنها تنفيذ تعليمات مفصلة.

غير أن النماذج الحالية بعيدة كل البعد عن تحقيق هذا المستوى من الاستيعاب، وليس من الواضح أن هذا سيحدث بفضل بحث إضافي حول نظام تمكن -مرة أخرى- من تحقيق المرتبة الأولى.

كيف انتهى المطاف بأوساط معالجة اللغة الطبيعية إلى هذه الهوة الكبيرة بين أبحاث التقييمات والقدرات في العالم الحقيقي؟ قمت بالاشتراك مع زملائي في تقديم بحث إلى إيه سي إل لتوضيح موقفنا من هذا الأمر، ويقول هذا البحث إن السعي إلى تحقيق معايير صعبة أدى بالتقييمات إلى فقدان توجهها نحو أهدافها الحقيقية، أي التطبيقات الفعلية المعقدة. وقد ذكرنا في البحث أن ممارسات باحثي معالجة اللغة الطبيعية تشبه التدرب على الجري عن طريق "التحديق في أرجاء صالة تدريب وتبنّي أي نوع من التدريبات التي تبدو صعبة".

وحتى تصبح أساليب التقييم متوافقة مع الأهداف، فإنه من المفيد أن ندرس ما الذي يمنع تطور الأنظمة الحالية.

عندما يقوم الإنسان بقراءة نص مكتوب، فإنه يبني تمثيلات مفصلة للكيانات والمواقع والأحداث والعلاقات القائمة فيما بينها، أي أنه "نموذج عقلي" للعالم كما يصفه النص. بعد ذلك، يستطيع القارئ أن يستكمل تفاصيل النموذج، ويستنبط أحداث المستقبل أو الماضي، وحتى أن يبني فرضيات حول البدائل المناقضة للواقع المذكور في النص.

إن هذا النوع من النمذجة والتفكير هو بالضبط ما يجب أن تكون أنظمة المساعدة البحثية المؤتمتة أو شخصيات الألعاب المؤتمتة قادرة على القيام به، وهو ما تفتقر إليه الأنظمة الحالية بشكل ملحوظ. يستطيع باحث معالجة اللغة الطبيعية عادة أن يربك أحدث الأنظمة في استيعاب القراءة بعد بضع محاولات وحسب. يُعد سبر نموذج النظام عن العالم واحداً من الأساليب الموثوقة، الذي يمكن أن يؤدي إلى إرباك أعتى الأنظمة -بما فيها نظام جي بي تي-3 الذي حقق ضجة كبيرة- وتضليله لدرجة أنه قد يبدأ بالثرثرة حول عدد العيون التي تمتلكها ورقة واحدة من الأعشاب.

إن تزويد أنظمة القراءة الآلية بنماذج عن العالم يتطلب تحقيق ابتكارات كبيرة في مجال تصميم الأنظمة، وذلك كما ورد في عدة أبحاث مقدَّمة كانت تندرج تحت التوجه العام للمؤتمر. ولكننا نتحدث عن مسألة أكثر عمقاً؛ فمهما كانت الأنظمة المطبقة، لا يمكن أن تتضمن نماذج دقيقة عن العالم من دون إجراء تقييمات منهجية لدقة هذه النماذج.

قد تبدو هذه العبارة واضحة وبديهية، ولكن هذه الفكرة لا تُطبق إلا فيما ندر. اقترحت مجموعات بحثية مثل معهد آلن للذكاء الاصطناعي عدداً من الأساليب الأخرى لزيادة صعوبة عملية التقييم، مثل التركيز على بنى لغوية منوعة، وتوجيه أسئلة تتضمن عدة خطوات منطقية واستنتاجية، أو حتى تجميع عدة معايير معاً وحسب. ركز باحثون آخرون، مثل مجموعة ييجين تشوي في جامعة واشنطن، على اختبار المنطق السليم، الذي يستمد المفاهيم من النماذج التي توضع عن العالم. لا شك في فائدة هذه الجهود، ولكنها ما زالت تركز عموماً على مراكمة الأسئلة التي لا تستطيع الأنظمة الحالية الإجابة عنها.

نحن نقترح نقلة أكثر عمقاً؛ حيث إن بناء تقييمات ذات مغزى فعلي يتطلب من باحثي معالجة اللغة الطبيعية البدءَ بالعمل على تحديد المكونات التي يجدر بنماذج الأنظمة عن العالم أن تحويها حتى تكون مفيدة في التطبيقات اللاحقة، ونطلق على هذه الفكرة اسم: "قالب الاستيعاب".

تعتبر القصص الخيالية من الأساليب الواعدة لاختبار هذه المقاربة؛ حيث إن القصص الجديدة غنية بالمعلومات، ولا يمكن البحث عنها في محركات البحث، وهي تلعب دوراً محورياً بالنسبة للكثير من التطبيقات، ما يجعل منها مجالَ اختبار مثالياً للقدرات المتعلقة باستيعاب القراءة. وبالاعتماد على أدبيات علوم الإدراك حول القراءة البشرية، اقترح رئيسنا التنفيذي ديفيد فيروتشي قالباً من أربع أجزاء لاختبار قدرة الذكاء الاصطناعي على استيعاب القصص:

الجزء المكاني: أين يقع كل شيء من الأشياء؟ وكيف يتوضع عبر كافة مراحل القصة؟
الجزء الزمني: ما أحداث القصة ومتى وقعت؟
الجزء السببي: كيف تؤدي الأحداث إلى أحداث أخرى بشكل منطقي؟
جزء الدوافع: لماذا قررت الشخصيات أن تفعل ما فعلته؟

بطرح هذه الأسئلة بشكل متتابع عن كل الكيانات والأحداث في القصة، يمكن لباحثي الذكاء الاصطناعي تقييم مستوى استيعاب الأنظمة بأسلوب منهجي، وتحديد نماذج العالم التي يحتاج إليها النظام فعلياً.

من الرائع أن نرى أوساط معالجة اللغة الطبيعية وهي تعكف على دراسة العناصر المفقودة من التكنولوجيات الحالية. نأمل بأن هذه الطريقة في التفكير ستؤدي إلى استثمارات كبيرة، ليس فقط في خوارزميات جديدة وحسب، بل أيضاً في أساليب جديدة وأكثر صرامة في قياس مدى استيعاب الأنظمة الآلية. قد لا يثير هذا العمل الكثير من العناوين الصحافية، ولكننا نعتقد أن الاستثمار في هذه المسائل سيدفع بالمجال بأسره إلى الأمام، على الأقل بقدر نموذج ضخم آخر.