لماذا لا نستطيع اختبار النماذج اللغوية بالطريقة التي نختبر بها الذكاء البشري؟

عندما كان تايلور ويب يعبث بنظام جي بي تي 3 (GPT-3) في أوائل عام 2022، أُصيب بالذهول إزاء ما بدا أن هذا النموذج اللغوي الكبير من أوبن أيه آي (OpenAI) قادر على فعله. لقد كان هذا النظام شبكة عصبونية مدربة فقط على التنبؤ بالكلمة التالية ضمن كتلة نصية، وهو أقرب ما يكون إلى نسخة متطورة من ميزة الإكمال التلقائي للكتابة. وعلى الرغم من هذا، فقد كان يقدّم إجابات صحيحة عن الكثير من المعضلات المجردة التي طرحها ويب عليه، وهي معضلات مشابهة لما تتضمنه اختبارات معدل الذكاء (IQ). يقول ويب: "أصبت بصدمة كبيرة عندما رأيت قدرته على حل هذه المعضلات. لقد قلب كل توقعاتي رأساً على عقب تماماً".

يعمل ويب مختصاً بعلم النفس في جامعة كاليفورنيا في مدينة لوس أنجلوس، حيث يدرس الطرق المختلفة التي يستخدمها البشر والحواسيب لحل المعضلات المجردة. وقد كان معتاداً على بناء شبكات عصبونية تتمتع بقدرات "تفكير منطقي" محددة مدمجة. لكن جي بي تي 3 تعلّم هذه القدرات جميعها مجاناً، على ما يبدو.

ما الذي تعنيه اختبارات النماذج اللغوية؟

نشر ويب وزملاؤه منذ مدة قريبة مقالاً في مجلة "نيتشر" (Nature)، حيث وصفوا قدرة جي بي تي 3 على اجتياز مجموعة متنوعة من الاختبارات المصممة لتقييم استخدام القياس (أي تصميم حل من خلال قياسه بحل موجود مسبقاً) لحل المشكلات، وفق الطريقة المعروفة باسم التفكير المنطقي بالقياس أو التفكير المنطقي القياسي. وقد تمكن جي بي تي 3 من إحراز نتيجة أفضل من النتيجة التي أحرزتها مجموعة من طلاب المرحلة الجامعية في بعض من هذه الاختبارات. يقول ويب: "يمثّل القياس إحدى الركائز الأساسية في التفكير البشري. ويمثّل بالنسبة لنا إحدى أهم القدرات التي يجب أن يمتلكها أي نوع من الذكاء الآلي".

يمثّل موضوع بحث ويب أحدث حلقة وحسب في سلسلة طويلة من الحيل الرائعة التي تمكنت النماذج اللغوية الكبيرة من إتقانها. على سبيل المثال، عندما كشفت أوبن أيه آي الستار عن النظام الأحدث من جي بي تي 3، جي بي تي 4 (GPT-4)، في مارس/ آذار، نشرت الشركة قائمة مثيرة للدهشة من الاختبارات والتقييمات المهنية والأكاديمية التي زعمت أن نموذجها اللغوي الجديد تمكن من تحقيق نجاح باهر فيها، بما فيها أكثر من عشرين اختباراً من اختبارات المرحلة الثانوية، إضافة إلى امتحان نقابة المحامين الأميركية. ولاحقاً، عملت أوبن أيه آي بالتعاون مع مايكروسوفت على إثبات قدرة جي بي تي 4 على اجتياز بعض الأجزاء من امتحان ترخيص ممارسة الطب في الولايات المتحدة.

أيضاً، يزعم عدة باحثين أنهم تمكنوا من إثبات قدرة النماذج اللغوية الكبيرة على النجاح في الاختبارات المصممة لكشف قدرات ذهنية معينة لدى البشر، بدءاً من التفكير باستخدام سلسلة من الأفكار (أي التعامل مع المشكلة باتباع خطوات متتالية) وصولاً إلى نظرية العقل (أي تخمين ما يفكر فيه الآخرون).

أدّت هذه النتائج إلى تعزيز التوقعات المتزايدة التي تقول إن هذه الآلات ستبدأ قريباً بالاستحواذ على الوظائف المكتبية، والحلول محل المعلمين والأطباء والصحافيين والمحامين. ووفقاً لجيفري هينتون، فإن القدرة الجلية لجي بي تي 4 على تركيب الأفكار هي أحد الأسباب التي تجعله الآن خائفاً من التكنولوجيا التي ساعد على ابتكارها.

إلّا أنه ثمة مشكلة لم تُحَلّ حتى الآن، فليس هناك تقريباً أي اتفاق حول المعنى الحقيقي لهذه النتائج. حيث ينبهر بعض الناس بما يبدو لهم أنها ومضات من ذكاء شبيه بذكاء البشر، أمّا بعضهم الآخر فليس لديهم أدنى درجة من القناعة بصحة هذا الأمر.

تقول عالمة الحاسوب ناتالي شابيرا في إحدى جامعات الشرق الأوسط: "تعاني التقنيات الحالية لتقييم النماذج اللغوية الكبيرة عدة مشكلات جوهرية. فهي توهمنا بأن هذه الأنظمة تتمتع بقدراتٍ كبيرة تتجاوز قدراتها الفعلية".

ولهذا، يرغب عددٌ متزايد من الباحثين –مثل علماء الحاسوب وعلماء الإدراك وعلماء الأعصاب ومختصي اللسانيات- في إحداث تغيير شامل بطريقة تقييم هذه الأنظمة، داعين إلى تطبيق طريقة أكثر صرامة وشمولية. ويعتقد بعضهم أن أسلوب استخدام الاختبارات البشرية لتقييم الآلات أسلوبٌ خاطئ، قطعاً، ويجب التخلي عنه تماماً.

تقول باحثة الذكاء الاصطناعي في معهد سانتا فيه بمدينة نيو مكسيكو، ميلاني ميتشل: "بدأ الباحثون يستخدمون اختبارات الذكاء البشري -مثل اختبار معدل الذكاء وما شابه ذلك- لتقييم الآلات منذ بداية ظهور الذكاء الاصطناعي. وقد كانت المشكلة الدائمة المرافقة لهذه الطريقة تحديد معنى اختبار الآلة على هذا النحو. فهي لا تحمل المعنى نفسه الذي تحمله عند اختبار البشر".

وتُضيف قائلة: "أصبحت معاملة الآلات كالبشر مسألة منتشرة على نطاقٍ واسع. ويؤدي هذا إلى تشويه طريقة تفكيرنا في هذه الأنظمة وكيفية اختبارها".

مع تصاعد الآمال والمخاوف إزاء هذه التكنولوجيا إلى درجة غير مسبوقة، أصبح من المهم للغاية أن نحدد على نحو راسخ ما تستطيع النماذج اللغوية فعله، وما تعجز عن فعله.

تأويلات مفتوحة

يمكن تلخيص معظم المشكلات المتعلقة بطرق اختبار النماذج اللغوية الكبيرة بالسؤال حول كيفية تفسير النتائج.

إن التقييمات المصممة للبشر، مثل اختبارات مرحلة التعليم الثانوي واختبارات معدل الذكاء، تهمل الكثير من العوامل لأنها تفترض أنها محققة على نحو مضمون. فعندما يحرز البشر نتائج جيدة، يمكن أن نفترض، وبثقة، أنهم يمتلكون المعرفة أو الفهم، أو القدرات الذهنية، التي صُمِّم الاختبار لقياسها. (من الناحية العملية، ليس هذا الافتراض صحيحاً بالكامل. فالاختبارات الأكاديمية لا تعبّر عن القدرات الحقيقية للطلاب دائماً. إضافة إلى هذا، فإن اختبارات معدل الذكاء مصممة لقياس مجموعة محددة من المهارات، ولا تستطيع قياس الذكاء الإجمالي. في الواقع، يميلُ كلا النوعين من التقييمات إلى مصلحة الأشخاص البارعين في اجتياز هذه الأنواع من التقييمات).

ولكن، عندما يحرز نموذج لغوي كبير نتيجة جيدة في هذه الاختبارات، فليس من الواضح ما الذي يعبّر عنه هذا القياس. أهو دليل على استيعاب فعلي؟ أمْ أنه مجرد حيلة إحصائية خالية من التفكير والمنطق؟ أمْ أنه مجرد تكرار أعمى؟

تقول إحدى كبار العلماء الباحثين في جوجل ديب مايند (Google DeepMind)، لورا ويدينغر: "هناك تاريخ طويل من تطوير طرق اختبار العقل البشري. ومع ظهور النماذج اللغوية الكبيرة التي تنتج نصوصاً شبيهة للغاية بالنتاج البشري، يبدو من المغري أن نفترض أن الاختبارات النفسية البشرية ستكون مفيدة في تقييم هذه النماذج. لكن هذا ليس صحيحاً؛ فالاختبارات النفسية البشرية تعتمد على الكثير من الافتراضات التي لا تنطبق على حالة النماذج اللغوية الكبيرة".

يدرك ويب طبيعة المسائل التي يخوض فيها. ويقول: "أنا أشعر أيضاً بأنها أسئلة صعبة". ويشير إلى أن جي بي تي 3 أحرز نتيجة أفضل من طلاب المرحلة الجامعية في بعض الاختبارات، غير أنه حقق نتائج رديئة في اختبارات أخرى. على سبيل المثال، فقد أخفق في اجتياز اختبار تفكير قياسي حول الأجسام المادية، وهو اختبار يستخدمه مختصو علم النفس التنموي أحياناً مع الأطفال.

ففي هذا الاختبار، لقّم ويب وزملاؤه جي بي تي 3 بقصة حول جنّي سحري ينقل أحجاراً كريمة بين زجاجتين، وسألوه بعد ذلك كيف يمكن نقل كرات العلكة من وعاءٍ إلى آخر باستخدام أشياء مثل لوحة ملصقات وأنبوب مصنوع من الورق المقوى. تكمن الفكرة في أن القصة تتضمن تلميحات حول طرق لحل المعضلة. وقد كتب الباحثون في ورقتهم البحثية المنشورة في مجلة "نيتشر" قائلين: "اقترح جي بي تي 3 عموماً حلولاً معقدة لكنها عديمة المعنى من الناحية الميكانيكية، ودون تقديم آلية واضحة لنقل كرات العلكة بين الوعائين".

يقول ويب: "هذه المسائل سهلة الحل بالنسبة إلى الأطفال. تميلُ المسائل التي تعجز هذه الأنظمة عن التعامل معها في معظمها إلى الحاجة إلى الاعتماد على فهم آليات عمل العالم الحقيقي، مثل أساسيات الفيزياء أو التفاعلات الاجتماعية، وهي أشياء اعتيادية بالنسبة إلى البشر".

إذاً، كيف يمكن أن نفهم آلة قادرة على اجتياز امتحان نقابة المحاماة الأميركية، لكنها تخفق في حل مسائل من مستوى مرحلة ما قبل المدرسة؟ تُدَرّب النماذج اللغوية الكبيرة مثل جي بي تي 4 على عددٍ هائل من المستندات المأخوذة من الإنترنت، مثل الكتب والمدونات والقصص الخيالية للهواة والمعجبين والتقارير التقنية ومنشورات وسائل التواصل الاجتماعي، والكثير الكثير من المواد الأخرى. من المرجح أن تتضمن تلك المجموعات المأخوذة من الإنترنت مقداراً كبيراً من أوراق الاختبارات السابقة. ومن المحتمل أن النماذج مثل جي بي تي 4 لُقِّمت بعددٍ هائل من الاختبارات الأكاديمية والمهنية ضمن بيانات التدريب إلى درجة أنها تعلمت الإجابة عن الأسئلة بآلية الإكمال التلقائي.

ثمة كميات كبيرة من هذه الاختبارات -بأسئلتها وأجوبتها- متاحة عبر الإنترنت، كما يقول ويب: "تتضمن بيانات تدريب جي بي تي 3 وجي بي تي 4 الكثير من هذه الاختبارات على نحو شبه مؤكد، ولهذا، أعتقد أنه لا يمكننا التوصل إلى أي استنتاج يستحق الذكر".

تقول أوبن أيه آي إنها أجرت عمليات تدقيق كي تؤكد أن الاختبارات التي أجراها جي بي تي 4 لم تحتوِ على أي نصوص موجودة أيضاً في بيانات التدريب التي تعامل معها النموذج. وفي عمل أوبن أيه آي مع مايكروسوفت حول امتحان ترخيص ممارسة الطب، استخدمت الشركة أسئلة امتحانية متاحة لمَن يدفع رسومها فقط كي تضمن عدم وجودها في بيانات التدريب التي تعامل معها النموذج جي بي تي 4. لكن هذه الإجراءات الاحترازية ليست مضمونة: فمن المحتمل أن جي بي تي 4 صادف امتحانات مماثلة، إن لم تكن مطابقة تماماً.

عندما أجرى مهندس التعلم الآلي "هوراس هي" اختباراً على جي بي تي 4 باستخدام أسئلة مأخوذة من موقع كودفورسز (Codeforces)، وهو موقع ويب يستضيف مسابقات للبرمجة، وجد أنه أحرز نتيجة 10 في اختبارات البرمجة المنشورة قبل 2021، و0 في الاختبارات المنشورة بعد 2021. وقد لاحظ آخرون أيضاً تراجعاً كبيراً في نتائج اختبارات جي بي تي 4 حول المواد المنشورة بعد 2021. وبما أن بيانات التدريب التي تعامل معها النموذج تتضمن النصوص المجمعة قبل 2021 فقط، يقول البعض إن هذا يثبت أن النماذج اللغوية الكبيرة أقرب في قدراتها إلى الحفظ منها إلى الذكاء.

ولتفادي هذا الاحتمال في التجارب، صمم ويب أنواعاً جديدة تماماً من الاختبارات. ويقول: "ما يهمنا فعلاً هو قدرة هذه النماذج على التعامل مع أنواع جديدة من المعضلات والمشكلات".

عمل ويب وزملاؤه على تعديل إحدى طرق اختبار التفكير القياسي، وهي معروفة باسم مصفوفات ريفن المتتابعة (Raven’s Progressive Matrices). تتألف هذه الاختبارات من صورة تُظهر سلسلة من الأشكال المرتبة أفقياً أو عمودياً. ويكمن التحدي في تحديد النمط الموجود في هذه السلسلة من الأشكال، وتطبيقه على سلسلة جديدة. تُستَخدم مصفوفات ريفن المتتابعة لتقييم التفكير غير اللفظي لدى الأطفال اليافعين والبالغين، وهي شائعة في اختبارات معدل الذكاء.

غير أن الباحثين لم يستخدموا الصور، بل عمدوا إلى ترميز الأشكال والألوان والمواضع بسلاسل من الأرقام. وهو ما يضمن أن الاختبار لن يظهر في أي بيانات تدريبية، وفقاً لويب حيث يقول: "عملتُ على بناء مجموعة البيانات هذه من الصفر. ولم يسبق لي أن سمعت بأي شيء يشبهها".

نال عمل ويب إعجاب ميتشل، حيث تقول: "إن هذه الورقة البحثية مثيرة للاهتمام ومحرضة على التفكير إلى درجة كبيرة. إنها دراسة منفذة بعناية". لكنها أعربت عن بعض التحفظات أيضاً. فقد طوّرت ميتشل اختبارها الخاص للتفكير القياسي، الذي يحمل اسم "كونسيبت أرك" (ConceptARC)، والذي يعتمد على سلاسل مرمزة من الأشكال المأخوذة من مجموعة بيانات آرك (وهو اسم مختصر لعبارة "تحدي التجريد والتفكير" (Abstraction and Reasoning Challenge)) التي طوّرها الباحث في شركة جوجل فرانسوا شوليه. وفي تجارب ميتشل، أحرز جي بي تي 4 نتائج أسوأ من نتائج البشر في هذه الاختبارات.

تُشير ميتشل أيضاً إلى أن ترميز الصور على شكل سلاسل (أو مصفوفات) من الأرقام يجعل المعضلة أكثر سهولة بالنسبة للبرنامج، لأنه يزيل الجانب المرئي للأحجية. وتقول: "إن حل أحاجي المصفوفات العددية لا يكافئ حل معضلات ريفن".

اختبارات غير ثابتة

يتسم أداء النماذج اللغوية الكبيرة بافتقاره إلى الثبات. فعند اختبار البشر، يمكن أن نفترض، وبثقة كبيرة، أن الشخص الذي يحرز نتيجة جيدة في الاختبار، سيُبلي حسناً في اختبار مماثل أيضاً. لكن هذا لا ينطبق على النماذج اللغوية الكبيرة، حيث يكفي تعديل صغير في الاختبار لخفض النتيجة من درجة ممتازة إلى درجة رديئة.

تقول المختصة بعلم النفس في جامعة كامبريدج في المملكة المتحدة، لوسي تشيك: "عموماً، لم يُقيّم الذكاء الاصطناعي بطريقة تُتيح لنا فهم قدرات هذه النماذج فعلياً. يُعد اختبار جودة أداء النظام في تنفيذ مهمة معينة أمراً منطقياً تماماً، غير أنه ليس من المفيد الاعتماد على النتيجة المتعلقة بهذه المهمة في إطلاق مزاعم حول القدرات العامة".

لنأخذ مثالاً من ورقة بحثية منشورة في مارس/ آذار لفريق من باحثي مايكروسوفت، حيث زعموا أنهم اكتشفوا "لمحات من الذكاء الاصطناعي العام" في جي بي تي 4. أجرى الفريق عملية تقييم للنموذج اللغوي الكبير باستخدام مجموعة من الاختبارات. وفي أحد الاختبارات، وجّه الفريق سؤالاً إلى جي بي تي 4 حول كيفية تكديس كتاب، وتسع بيضات، وحاسوب محمول، وقارورة، ومسمار، على نحو مستقر. وقدّم النموذج الإجابة التالية: "يجب وضع الحاسوب المحمول فوق البيض، مع توجيه الشاشة إلى الأسفل ولوحة المفاتيح إلى الأعلى. وسيتسع الحاسوب المحمول على نحو ملائمٍ ضمن حدود الكتاب والبيض، وسيوفّر سطحه المستوي والصلب منصة مستقرة للطبقة التالية".

إجابة لا بأس بها. غير أنه عندما جربت ميتشل نسختها الخاصة من السؤال، حيث طلبت من جي بي تي 4 تكديس خلة أسنان، ووعاء من البودينغ، وكأس من الماء، وقطعة من حلوى المارشميلو، اقترح النموذج غرس خلة الأسنان في البودينغ ووضع قطعة المارشميلو على خلة الأسنان، وموازنة كأس الماء الممتلئة فوق قطعة المارشميلو. (الجدير بالذكر أن النموذج ختم إجابته بملاحظة تحذيرية مفيدة: يجب ألّا ننسى أن هذه المجموعة المكدسة من الأشياء حساسة وقد لا تكون مستقرة جداً. ويجب التزام الحذر عند بنائها والتعامل معها لتفادي انسكاب المواد أو الحوادث).

وإليكم حالة جدلية أخرى. ففي فبراير/ شباط، نشر الباحث في جامعة ستانفورد، ميكال كوزينسكي، ورقة بحثية زعم أنه أثبت فيها أن نظرية العقل "ربما قد ظهرت على شكل نتيجة ثانوية غير مقصودة" في جي بي تي 3. نظرية العقل هي القدرة الإدراكية على تخمين الحالة الذهنية لدى الآخرين، وهي من أسس الذكاء العاطفي والاجتماعي، ويبدأ الأطفال باكتسابها في عمر ثلاث إلى خمس سنوات. وقد قال كوزينسكي إن جي بي تي 3 اجتاز الاختبارات الأساسية المستخدمة في تقييم هذه القدرة لدى البشر.

على سبيل المثال، قدّم كوزينسكي هذا السيناريو إلى جي بي تي 3: "إليك كيساً مليئاً بالفشار. ولا يحتوي على الشوكولاتة. غير أن اللصاقة الموجودة على الكيس تحمل كلمة "شوكولاتة" وليس "فشار". وجدت سام هذا الكيس، ولم يسبق لها أن رأته من قبل، ولا تستطيع رؤية ما في داخل الكيس، ثم تقرأ اللصاقة".

بعد ذلك، وجّه كوزينسكي أمراً نصياً إلى النموذج يطلب فيه إكمال جمل مثل: "تفتحُ الكيس وتنظرُ إلى داخله. يمكنها أن ترى بوضوح أنه مليء بـ..." و "اعتقدت أن الكيس مليء بـ..."، حيث أكمل جي بي تي 3 الجملة الأولى بكلمة "الفشار" والثانية بكلمة "الشوكولاتة". تمثّل هذه الإجابات بالنسبة إليه دليلاً على أن جي بي تي 3 يُبدي على الأقل شكلاً أولياً من نظرية العقل، لأنها تعبّر عن الاختلافات بين الحالة الحقيقية للعالم ومعتقدات سام (الخاطئة) حوله.

ليس من المستغرب أن نتائج كوزينسكي ظهرت في العناوين الإخبارية. لكنها أيضاً دفعت الكثيرين إلى محاولة دحضها. تقول تشيك: "لقد تصرفتُ على تويتر بفظاظة".

نشر عدة باحثين، بمن فيهم شابيرا وعالم الإدراك في جامعة هارفارد، تومر أولمان، أمثلة مناقِضة تبيّن أن النماذج اللغوية الكبيرة أخفقت في تجاوز اختبارات معدلة تعديلات طفيفة عن الاختبارات التي استخدمها كوزينسكي. يقول أولمان: "لقد شعرتُ بالكثير من الشكوك نظراً لما أعرفه حول كيفية بناء النماذج اللغوية الكبيرة".

عدّل أولمان السيناريو في اختبار كوزينسكي بإخبار جي بي تي 3 أن كيس الفشار الذي يحمل لصاقة "شوكولاتة" شفاف (ما يعني أن سام أصبحت قادرة على رؤية الفشار في داخله) أو أن سام عاجزة عن القراءة (ما يعني أن اللصاقة لن تضللها). ووجد أولمان أن جي بي تي 3 أخفق في تحديد الحالة الذهنية الصحيحة لسام في الحالات التي تحتاج إلى بضع خطوات إضافية من التفكير.

تقول شابيرا: "إن الافتراض الذي يقول إن الاختبارات الإدراكية أو الأكاديمية المصممة للبشر صالحة للاستخدام لقياس قدرات النماذج اللغوية الكبيرة بدقة ناجمٌ، على ما يبدو، من الميل إلى معاملة النماذج اللغوية مثل البشر وتقييمها وفق المعايير البشرية. وهو افتراض خاطئ".

بالنسبة إلى تشيك، ثمة حل واضح. وتقول إن العلماء كانوا يجرون عمليات تقييم للقدرات الإدراكية لدى الكائنات غير البشرية على مدى عقود كاملة، ويستطيع باحثو الذكاء الاصطناعي تعديل التقنيات المستخدمة لدراسة الحيوانات، التي طُوِّرت لتفادي التسرع في الاستنتاج بناء على التحيز إلى البشر.

ولنأخذ الجرذ في المتاهة مثالاً، كما تقول تشيك: "كيف يحدد مساره؟ لا تنطبق الافتراضات القائمة في علم النفس البشري على هذه الحالة". بدلاً ذلك، يتعين على الباحثين إجراء سلسلة من تجارب المقارنة لتحديد المعلومات التي يستخدمها الجرذ وكيفية استخدامه لها، وذلك بتجربة الفرضيات واستبعادها واحدة تلو الأخرى.

تقول تشيك: "في حالة النماذج اللغوية الكبيرة، تصبح المسألة أكثر تعقيداً. فليس هناك اختبارات للجرذان باستخدام اللغة". وتُضيف قائلة: "نحن في وضعٍ جديد، غير أن معظم أساليب العمل الأساسية صالحة لهذه الحالة. لكننا يجب أن نجري هذه التجارب باستخدام اللغة بدلاً من متاهة صغيرة".

قررت ويدينغر اتباع أسلوب مماثل. حيث تعمل مع زملائها على تعديل تقنيات يستخدمها علماء النفس لتقييم القدرات الإدراكية لدى الأطفال البشر في مرحلة ما قبل النطق. وتقوم إحدى الأفكار الأساسية هنا على تجزئة الاختبار المتعلق بقدرة معينة إلى مجموعة من عدة اختبارات لكشف قدرات أخرى ذات صلة أيضاً. على سبيل المثال، عند تقييم ما إذا كان الطفل قد تعلم كيفية مساعدة شخص آخر، قد يرغب عالِم النفس أيضاً في تقييم ما إذا كان الطفل يستوعب مفهوم العرقلة والإعاقة، وهو ما يجعل الاختبار الإجمالي أكثر دقة.

تكمن المشكلة في أن هذا النوع من الاختبارات يستغرق وقتاً طويلاً؛ فقد يمضي فريق بحثي سنوات عدة في دراسة سلوك الجرذان، وفقاً لتشيك. أمّا الذكاء الاصطناعي فهو يتطور بوتيرة أسرع من ذلك بكثير. ويشبّه أولمان عملية تقييم النماذج اللغوية الكبيرة بعقاب سيزيفيّ (عقاب يتضمن أداء مهام شاقة عبثية): "تقول المزاعم إن نظاماً ما يُظهر السلوك X، وبحلول الوقت الذي يبيّن فيه أحد التقييمات أنه لا يُظهر السلوك X، يَظهر نظام جديد تقول المزاعم أيضاً إنه يبدي السلوك X".

تغيير الأهداف

منذ خمسين سنة، اعتقد الناس أن التغلب على بطل عالمي في الشطرنج يتطلب استخدام حاسوب يضاهي البشر في ذكائه، وفقاً لميتشل. لكن الآلات تمكنت في نهاية المطاف من التفوق على خصومها البشر في الشطرنج لمجرد امتلاكها قدرات أفضل على إجراء الحسابات. وهكذا، كان الفوز من نصيب خوارزميات تخمين الاحتمالات جميعها (هجوم القوة العمياء)، لا الذكاء.

وضع البشر تحديات أخرى مماثلة، وتمكنت الآلات من تجاوزها، بدءاً من التعرف على الصور وصولاً إلى لعبة غو. وفي كل مرة كانت الحواسيب توضع فيها على المحك لإنجاز مهمة يحتاج البشر إلى الذكاء لإنجازها، مثل ممارسة الألعاب واستخدام اللغة، كان هذا يؤدي إلى حدوث انقسام في حقل الذكاء الاصطناعي. والآن، وصلت النماذج اللغوية الكبيرة إلى لحظتها المفصلية الخاصة بها. تقول ميتشل: "إن هذه النتائج تدفعنا جميعاً إلى إعادة النظر في ماهية الذكاء".

هل يُبدي جي بي تي 4 ذكاءً حقيقياً باجتيازه هذه الاختبارات جميعها أمْ أنه وجد طريقاً مختصراً فعّالاً -لكنه لا ينطوي على أي قدرٍ من الذكاء في نهاية المطاف- على هيئة حيلة إحصائية استنبطها من مخزونه الهائل من التريليونات من العلاقات الترابطية عبر المليارات من الأسطر النصية؟

تقول ميتشل: "إذا قلت إن نجاح جي بي تي 4 في امتحان نقابة المحامين لا يعني أنه يتمتع بالذكاء، فسوف يتهمك الآخرون بتجاهل الأدلة للحفاظ على وجهة نظرك. لكن، هل نقول إننا نتجاهل الأدلة ونغيّر الأهداف أمْ نقول إن هذا ليس المعنى الذي كنا نقصده عند استخدام كلمة "ذكاء"؟ وهل كنا مخطئين في تعريف الذكاء؟"

في نهاية المطاف، يتعلق كل شيء بطريقة عمل النماذج اللغوية الكبيرة. يسعى بعض الباحثين إلى تقليل الاهتمام الزائد بنتائج الاختبارات، والتركيز على دراسة آليات عمل هذه النماذج. تقول ميتشل: "أعتقد أنه إذا أردنا أن نفهم الذكاء الذي تتمتع به هذه النماذج حقاً، إن أردنا استخدام هذه الاسم، فيتعين علينا أن نفهم آليات تفكيرها".

يتفق أولمان مع وجهة النظر هذه. ويقول: "أنا أتعاطف مع الذين يعتقدون أننا نتجاهل الأدلة. لكن هذا الأسلوب معتمد منذ فترة طويلة، أمّا الشيء الجديد حالياً فهو أننا لا ندرك كيف تمكنت هذه النماذج من النجاح في الاختبارات، ولا نعرف سوى أنها تجاوزتها وحسب".

تكمن المشكلة في أنه لا أحد يدري كيف تعمل النماذج اللغوية الكبيرة بالضبط. فتفكيك الآليات المعقدة داخل نموذج إحصائي ضخم عملية معقدة. لكن أولمان يعتقد أنه من الممكن، نظرياً، تطبيق الهندسة العكسية على النموذج، واكتشاف الخوارزميات التي يستخدمها لتجاوز الاختبارات المختلفة. ويقول: "يمكن أن أقتنع بسهولة أكبر إذا تمكن أحدهم من تطوير طريقة لتحديد الأشياء التي تعلمتها هذه النماذج فعلياً.

وأعتقد أن المشكلة الجوهرية هي أننا ما زلنا نركز على نتائج الاختبارات بدلاً مع دراسة كيفية اجتيازها لهذه الاختبارات".