بصفتي مراسلة تقنية، كثيراً ما أتلقى أسئلة من قبيل: "هل النموذج ديب سيك أفضل من النموذج تشات جي بي تي؟" أو "هل نموذج شركة أنثروبيك جيد؟" إذا لم أشعر برغبة في تحويل الحوار إلى ندوة مدتها ساعة، عادة ما أقدم إجابة دبلوماسية: "كلاهما قويان بطرق مختلفة".
لا يمتلك معظم الناس الذين يطرحون هذا النوع من الأسئلة تعريفاً دقيقاً لكلمة "جيد"، وهذا أمر طبيعي. من الطبيعي أن يسعى الإنسان إلى فهم شيء جديد يظهره بأنه يمتلك قدرات فعالة. لكن ذلك السؤال البسيط الذي يستفسر عن مدى براعة نموذج ذكاء اصطناعي معين يعبر في الواقع عن مشكلة تقنية أكثر تعقيداً.
مؤشرات التقييم المعيارية
إن الطريقة التي اتبعناها حتى الآن للإجابة عن هذا السؤال هي الاعتماد على مؤشرات التقييم المعيارية. هذه المؤشرات المعيارية للتقييم تمنح النماذج مجموعة ثابتة من الأسئلة للإجابة عنها وتقيمها بناء على عدد الإجابات الصحيحة التي حصلت عليها. ولكن كما هي الحال في اختبارات مثل اختبار القبول الذي يستخدمه العديد من الكليات الأميركية، والمعروف باسم "سات" اختصاراً، لا تعكس هذه المؤشرات المعيارية دائماً قدرات أعمق. في الآونة الأخيرة يبدو الأمر كما لو أن نموذجاً جديداً للذكاء الاصطناعي يظهر كل أسبوع، وفي كل مرة تطلق فيها شركة ما نموذجاً جديداً، يصدر بنتائج جديدة تظهر تفوقه على قدرات سابقيه. من الناحية النظرية، يبدو أن كل شيء يتحسن باستمرار.
أما من الناحية العملية، فالأمر ليس بهذه البساطة. فمثلما أن الاجتهاد في اختبار سات قد يحسن درجاتك دون تحسين تفكيرك النقدي، يمكن تدريب النماذج على تحسين نتائجها وفق مؤشرات التقييم المعيارية دون أن تزداد ذكاء بالفعل، كما أوضح راسل براندون في مقاله عبر منصة إم آي تي تكنولوجي ريفيو. وكما قال الخبير المخضرم في مجال الذكاء الاصطناعي في شركتي أوبن أيه آي وتيسلا، أندريه كارباثي، نحن نعيش أزمة تتعلق بالتقييم، إذ لم تعد مجموعة المقاييس التي نعتمد عليها في تقييم الذكاء الاصطناعي تعكس ما نريد قياسه حقاً.
اقرأ أيضاً: 7 وكلاء ذكاء اصطناعي تساعد الشركات على تبسيط العمليات
لماذا أصبحت المقاييس المعيارية قديمة؟
لقد باتت المقاييس المعيارية قديمة لعدة أسباب رئيسية. أولاً، لقد تعلمت الشركات المتخصصة في هذا المجال أساليب تعليم نماذج الذكاء الاصطناعي لاجتياز الاختبارات، أي تدريبها على تحقيق نتائج جيدة بدلاً من تحسينها بصورة فعلية. ثانياً، يشير انتشار تلوث البيانات على نطاق واسع إلى أن النماذج ربما تكون قد اطلعت بالفعل على أسئلة معايير الأداء أو حتى الإجابات الكامنة في مكان ما ضمن بيانات تدريبها. وأخيراً، فإن العديد من المقاييس المعيارية قد بلغ أقصى حد له. في الاختبارات الشائعة مثل سوبر غلو، وصلت النماذج بالفعل إلى دقة قدرها 90% أو تجاوزتها، ما يجعل أي تحسن إضافي يبدو أشبه بضجيج إحصائي أكثر منه تحسناً ملموساً. عند هذه النقطة، تتوقف النتائج عن تقديم أي فائدة حقيقية. وهذا ينطبق بصورة خاصة على المجالات التي تتطلب مهارات عالية مثل البرمجة والتفكير المنطقي وحل المسائل المعقدة في مجالات العلوم والتكنولوجيا والهندسة والرياضيات.
ومع ذلك، ثمة عدد متزايد من الفرق حول العالم تحاول معالجة أزمة تقييم الذكاء الاصطناعي.
اقرأ أيضاً: ما أحدث الطرق وأفضلها لتصنيف نتائج الذكاء الاصطناعي؟
مقياس معياري جديد
إحدى النتائج هي مقياس معياري جديد يسمى "لايف كود بنش برو". وهو يستخرج المسائل من مسابقات أولمبياد الخوارزميات الدولية، وهي مسابقات موجهة للمشاركين النخبة من مبرمجي المدارس الثانوية والجامعات حيث يعملون على حل المسائل الصعبة دون الاستعانة بأدوات خارجية. تنجح أفضل نماذج الذكاء الاصطناعي حالياً في حل نحو 53% فقط من المسائل المتوسطة الصعوبة في المرحلة الأولى، وتفشل في حل أي من المسائل الأصعب. هذه هي المهام التي يتفوق فيها الخبراء البشريون عادة.
قاد الطالب المستجد في جامعة نيويورك الحاصل على المركز الأول في البرمجة التنافسية على مستوى العالم، زيهان تشنغ، مشروع تطوير لايف كود بنش برو مع فريق من الفائزين بميداليات في أولمبياد الخوارزميات. وقد نشروا المقياس المعياري ودراسة مفصلة تظهر أن النماذج من أعلى مستوى، مثل "جي بي تي 4 أو ميني" و"جيميناي 2.5" من شركة جوجل، تحقق أداء يضاهي الـ 10% الأفضل من بين المنافسين البشريين. عموماً، لاحظ تشنغ وجود نمط معين: يتفوق الذكاء الاصطناعي في وضع الخطط وتنفيذ المهام، ولكنه يعاني صعوبات في التفكير الخوارزمي الدقيق. ويقول: "هذا يدل على أن الذكاء الاصطناعي لا يزال بعيداً عن منافسة أفضل المبرمجين البشر".
قد يحدد لايف كود بنش برو مقياساً معيارياً جديداً. ولكن ماذا عن الحد الأدنى؟ في وقت سابق من شهر يونيو/حزيران، ناقش مجموعة من الباحثين من عدة جامعات ضرورة تقييم وكلاء النماذج اللغوية الكبيرة في المقام الأول بناء على مدى خطورتهم، وليس فقط مدى جودة أدائهم. في بيئات العمل الواقعية التي تعتمد على التطبيقات -خاصة مع وكلاء الذكاء الاصطناعي- فإن الهلوسة والهشاشة وعدم الموثوقية تعد عوامل مدمرة. قد تتسبب خطوة واحدة خاطئة بكارثة عندما يكون المال أو السلامة على المحك.
اقرأ أيضاً: كيف تستخدم الذكاء الاصطناعي لتقييم أداء الموظفين؟
ثمة محاولات جديدة أخرى لمعالجة المشكلة. فبعض المقاييس المعيارية، مثل آرك-أيه جي آي، تبقي الآن جزءاً من مجموعة بياناتها سرية لتمنع الإفراط في تحسين نماذج الذكاء الاصطناعي لاجتياز الاختبار، وهي مشكلة تسمى "الإفراط في الملاءمة". طور يان ليكون من شركة ميتا مقياساً معيارياً ديناميكياً تتطور فيه الأسئلة كل ستة أشهر يحمل اسم "لايف بنش" (LiveBench)، إذ يهدف عمله إلى تقييم النماذج حسب القدرة على التكيف، لا بناء على المعرفة فقط.
ثمة مشروع صيني لتعريف مقياس معياري طورته مجموعة هونغ شان كابيتال غروب (سيكوا تشاينا سابقاً) يحمل اسم "إكس بنش"، وهو مشروع آخر يندرج في إطار هذه الجهود. وقد كتبت مقالاً عن هذا المشروع مؤخراً. طورت المجموعة الصينية إكس بنش أول مرة في عام 2022 -أي بعد إطلاق تشات جي بي تي مباشرة- ليكون أداة داخلية لتقييم النماذج لأبحاث الاستثمار. ومع مرور الوقت، وسع الفريق نطاق النظام واستعان بخبراء خارجيين. وقد أتاح أجزاء من مجموعة أسئلته للجمهور مؤخراً.
يتميز إكس بنش بتصميمه الثنائي المسار، والذي يحاول سد الفجوة بين الاختبارات في بيئة المختبر والفائدة في العالم الحقيقي. يعمل المسار الأول على تقييم مهارات التفكير المنطقي التقني من خلال اختبار معرفة النموذج بالعلوم والتكنولوجيا والهندسة والرياضيات والقدرة على إجراء الأبحاث باللغة الصينية. يهدف المسار الثاني إلى تقييم الفائدة العملية، أي مدى جودة أداء النموذج في تنفيذ مهام في مجالات مثل التوظيف والتسويق. على سبيل المثال، تطلب إحدى المهام من الوكيل الذكي تحديد خمسة مرشحين مؤهلين متخصصين في هندسة البطاريات؛ ومهمة أخرى تطلب منه مطابقة العلامات التجارية مع المؤثرين ذوي الصلة من بين مجموعة تضم أكثر من 800 من صانعي المحتوى.
يمتلك أفراد الفريق المسؤول عن تطوير إكس بنش طموحات كبيرة، فهم يخططون لتوسيع قدراته في الاختبار في قطاعات مثل التمويل والقانون والتصميم، ويخططون لتحديث مجموعة الاختبارات كل ثلاثة أشهر لتجنب الركود.
هذا أمر أتساءل بشأنه كثيراً، لأن قدرة النموذج على التفكير المنطقي الجاد لا تترجم بالضرورة إلى تجربة ممتعة وإبداعية وثرية بالمعلومات. والقسم الأعظم من الاستفسارات التي يقدمها المستخدمون العاديون لن يكون معقداً من الناحية العلمية على الأرجح. لا توجد أبحاث كثيرة حتى الآن حول كيفية تقييم القدرات الإبداعية للنماذج بفعالية، لكنني أود معرفة النموذج الأفضل للكتابة الإبداعية أو المشاريع الفنية.
اقرأ أيضاً: هل معايير تقييم نماذج الذكاء الاصطناعي دقيقة؟
اختبارات التفضيلات البشرية بصفتها بديلاً للمقاييس المعيارية
ظهرت أيضاً اختبارات التفضيلات البشرية بصفتها بديلاً للمقاييس المعيارية. إحدى المنصات التي تحظى بشعبية متزايدة هي إل مارينا، التي تتيح للمستخدمين طرح الأسئلة ومقارنة الإجابات المقدمة من نماذج مختلفة جنباً إلى جنب، ثم اختيار النموذج الذي يفضلونه. ومع ذلك، فإن هذه الطريقة لها عيوبها؛ إذ يكافئ المستخدمون أحياناً الإجابة التي تبدو أكثر إرضاء أو قبولاً، حتى لو كانت خاطئة، وهذا قد يشجع النماذج التي تكثر من "الكلام المعسول" ويحرف النتائج لصالح التملق.
بدأ باحثو الذكاء الاصطناعي يدركون -ويعترفون- أن الوضع الراهن لاختبارات الذكاء الاصطناعي لا يمكن أن يستمر. في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط الأخير، استند الأستاذ في جامعة نيويورك، سينينغ شيه، إلى كتاب المؤرخ جيمس كارس "الألعاب المحدودة واللامحدودة" لنقد ثقافة التنافس المفرط في أبحاث الذكاء الاصطناعي. وأشار إلى أن اللعبة اللامحدودة هي لعبة لا نهاية لها، والهدف منها هو الاستمرار في اللعب. ولكن في مجال الذكاء الاصطناعي، غالباً ما تتمكن إحدى الجهات الفاعلة المهيمنة من تحقيق نتيجة كبيرة، ما يؤدي إلى انطلاق موجة من الأبحاث اللاحقة التي تركز على الموضوع الضيق نفسه. تشكل ثقافة التسابق نحو النشر هذه ضغوطاً هائلة على الباحثين، وترجح كفة السرعة في الإنجاز على جوهر العمل المنجز، والمكاسب القصيرة المدى على الرؤى البعيدة المدى. وحذر كارس قائلاً: "إذا اختارت الأوساط الأكاديمية أن تلعب لعبة محدودة، فسوف تخسر كل شيء".
اقرأ أيضاً: ما هي الموجة الثانية من البرمجة باستخدام الذكاء الاصطناعي التي نعيشها حالياً؟
أعتقد أن التأطير الذي قدمه كارس للمسألة فعال، وربما ينطبق ذلك على المقاييس المعيارية أيضاً. إذاً، هل لدينا بالفعل مجموعة شاملة من المقاييس التي تحدد مدى جودة نموذج معين؟ الإجابة هي في الواقع: لا. لا يزال العديد من الأبعاد -الاجتماعية والعاطفية والمتعددة التخصصات- بعيداً عن التقييم. لكن موجة المقاييس المعيارية الجديدة تشير إلى أننا نشهد تحولاً. ومع تطور هذا المجال، ربما تكون إثارة القليل من الشكوك أمراً صحياً.