هل معايير تقييم نماذج الذكاء الاصطناعي دقيقة؟

5 دقيقة
مصدر الصورة: سارة روجرز/إم آي تي تي آر | فوتوز غيتي

عند إطلاق نموذج جديد من نماذج الذكاء الاصطناعي، عادة ما يتباهى مصمموه بأنه حقق نتائج ممتازة وفق مجموعة من المقاييس المعيارية. فعلى سبيل المثال، أطلقت شركة أوبن أيه آي (OpenAI) نموذج "جي بي تي 4 أو" (GPT-4o) في شهر مايو/أيار مع مجموعة من النتائج التي بينت أنه يتفوق بأدائه في عدة اختبارات على أحدث النماذج التي أطلقتها شركات الذكاء الاصطناعي الأخرى كلها.

تكمن المشكلة في أن هذه المقاييس المعيارية المستخدمة في تقييم هذه النماذج مصممة بأسلوب رديء، إذ من الصعب تكرار نتائجها، علاوة على أن المقاييس المعتمدة فيها غالباً ما تكون اعتباطية، وفقاً لبحث جديد. هذه مسألة مهمة، لأن درجات التقييم التي تحققها نماذج الذكاء الاصطناعي وفق هذه المقاييس المعيارية ستحدد مستوى التدقيق والتنظيم اللذين ستخضع لهما.

تقول مؤلفة الورقة البحثية وطالبة الدكتوراة في مجال علوم الكمبيوتر في جامعة ستانفورد وعضو مركز سلامة الذكاء الاصطناعي التابع للجامعة، أنكا ريويل: "يبدو الأمر كأننا نعيش في بيئة متفلتة وعشوائية نظراً لعدم وجود أي معايير جيدة للتقييم".

اقرأ أيضاً: ما هو الوضع الصوتي المتقدم في تشات جي بي تي؟ وكيف تستخدمه؟

ما هو المقياس المعياري؟

يمثل المقياس المعياري عملياً اختباراً يخضع له نظام الذكاء الاصطناعي. وقد يتخذ هذا الاختبار صيغة خيارات متعددة للإجابة، على غرار الاختبارات الأكثر شيوعاً، وهو مقياس معياري لاختبار "فهم اللغة الضخم المتعدد المهام" (Massive Multitask Language Understanding)، أو اختصاراً "إم إم إل يو" (MMLU)، أو قد يكون تقييماً لقدرة الذكاء الاصطناعي على تنفيذ مهمة محددة، أو قياساً لجودة إجاباته النصية عن مجموعة من الأسئلة.

عادة ما تستشهد شركات الذكاء الاصطناعي بهذه المقاييس المعيارية بصفتها دليلاً على نجاح نماذجها الجديدة. تقول أستاذة علم النفس في معهد جورجيا للتكنولوجيا، ورئيسة مختبر اللغة والذكاء والتفكير (LIT) في هذا المعهد، آنا إيفانوفا: "يميل مطورو هذه النماذج إلى العمل على تحسينها بما يتوافق مع مقاييس معيارية معينة".

أصبحت هذه المقاييس المعيارية جزءاً من خطط بعض الحكومات لتنظيم الذكاء الاصطناعي. على سبيل المثال، فإن قانون الذكاء الاصطناعي في الاتحاد الأوروبي، الذي سيدخل حيز التنفيذ في أغسطس/آب من عام 2025، يشير إلى المقاييس المعيارية بوصفها أداة تحدد وجود "مخاطر نظامية" في النموذج. فإذا كان الأمر كذلك، فسوف يخضع النموذج لمستويات أعلى من التدقيق والتنظيم. ويشير معهد سلامة الذكاء الاصطناعي في المملكة المتحدة إلى المقاييس المعيارية في إطار العمل "إنسبكت" (Inspect) الخاص به لتقييم سلامة النماذج اللغوية الكبيرة.

ما هي عيوب المقاييس المعيارية الحالية؟

غير أن هذه المقاييس المعيارية في الوقت الحالي قد لا تكون جيدة بما يكفي لاستخدامها بهذه الطريقة. تقول ريويل: "إذا لم يكن تصميم هذه المقاييس المعيارية متقناً، فمن المحتمل أن تمنحنا شعوراً مزيفاً بالأمان، خصوصاً في حالات الاستخدام العالية المخاطر. فقد يبدو النموذج آمناً، لكنه ليس كذلك".

نظراً للأهمية المتزايدة للمقاييس المعيارية، أرادت ريويل وزملاؤها دراسة أهم الأمثلة على هذه المقاييس لتحديد مواصفات المقياس الجيد، ومعرفة إن كانت المقاييس التي نستخدمها متينة بما فيه الكفاية. شرع الباحثون في بادئ الأمر في التحقق من صحة نتائج المقاييس المعيارية التي نشرها مطورو البرمجيات، لكنهم عجزوا في أغلب الأحيان عن تكرار هذه النتائج. فإجراء اختبار على مقياس معياري يتطلب عادة بعض التعليمات أو الرموز البرمجية لتشغيلها على النموذج. غير أن الكثيرين من مبتكري المقاييس المعيارية لم يتيحوا للعموم إمكانية الحصول على الرموز البرمجية اللازمة لتشغيل مقاييسهم المعيارية. وفي حالات أخرى، كانت الرموز البرمجية قديمة.

إضافة إلى ذلك، فإن الكثير من مبتكري المقاييس المعيارية لا يجعلون الأسئلة والإجابات في مجموعات البيانات الخاصة بهم متاحة للعموم أيضاً. لكن إذا جعلوها متاحة، يمكن للشركات ببساطة تدريب نماذجها على المقياس المعياري، ويصبح الأمر أشبه بالسماح لطالب بأن يطلع على أسئلة الاختبار وإجاباته قبل إجرائه. غير أن هذا يزيد صعوبة عملية التقييم.

ثمة مشكلة أخرى، وهي أن المقاييس المعيارية غالباً ما تكون "مشبعة"، ما يعني أن جميع المسائل التي تتضمنها أصبحت محلولة إلى حد كبير. لنفترض على سبيل المثال أن ثمة اختباراً يحتوي على عدة مسائل رياضية بسيطة. سنفترض أن الجيل الأول من أحد نماذج الذكاء الاصطناعي تمكن من تحقيق نتيجة 20%، أي أنه أخفق في الاختبار. أما الجيل الثاني فقد حقق نتيجة 90%، وحقق الجيل الثالث 93%. بالنسبة إلى مراقب خارجي، قد تعبر هذه النتائج عن تباطؤ في تقدم الذكاء الاصطناعي، لكنّ ثمة تفسيراً آخر، وهو أن المسائل التي يتضمنها المقياس المعياري أصبحت محلولة، ما يعني أن هذا المقياس لم يعد وسيلة جيدة لقياس مدى التقدم. لم يعد هذا المقياس المعياري قادراً على التقاط الفرق في القدرات بين الجيل الثاني والجيل الثالث من نموذج ما.

كان أحد أهداف البحث تحديد قائمة من المعايير التي تشكل مقياساً معيارياً جيداً. تقول إيفانوفا: "من المؤكد أن مناقشة جودة المقاييس المعيارية، وما نريده منها، وحاجتنا إليها، تمثل مسألة مهمة. وتكمن المشكلة في عدم وجود معيار واحد جيد لتحديد المقاييس المعيارية. تمثل هذه الورقة البحثية محاولة لتقديم مجموعة من معايير التقييم. وهذا أمر مفيد للغاية".

اقرأ أيضاً: 7 أسباب ساعدت على تطور الذكاء الاصطناعي بسرعة أكبر من رقائق الكمبيوتر

معايير جديدة

ترافق نشر الورقة البحثية مع إطلاق موقع الويب "بيتر بينش" (Better Bench)، الذي يصنف المقاييس المعيارية الأكثر شيوعاً في تقييم الذكاء الاصطناعي. يأخذ هذا التصنيف عوامل عديدة بعين الاعتبار: هل استشار مبتكرو المقياس الخبراء بشأن التصميم أم لا؟ وهل القدرات التي يختبرها المقياس معرّفة جيداً أم لا؟ وغير ذلك من الأساسيات مثل: هل هناك قناة تتيح تقديم الملاحظات والآراء المتعلقة بالمقياس؟ أو هل خضع المقياس لمراجعة الأقران؟

حصل المقياس المعياري "إم إم إل يو" على أدنى التقييمات. يقول مدير مركز سلامة الذكاء الاصطناعي -المعروف اختصاراً باسم "كايس" (CAIS)- وأحد مصممي المقياس المعياري "إم إم إل يو"، دان هندريكس: "أنا لا أتفق مع هذه التصنيفات. في الواقع، شاركتُ في تأليف بعض الأوراق البحثية التي حصلت على تصنيفات عالية، وأعتقد أن المقاييس المعيارية المصنفة في مراتب متأخرة أفضل منها". ومع ذلك، ما زال هندريكس يعتقد أن أفضل وسيلة لدفع هذا المجال إلى الأمام هو بناء مقاييس معيارية أفضل.

يرى البعض أن هذه المعايير ربما لا تعكس الصورة الشاملة. يقول الرئيس التنفيذي لمؤسسة الأبحاث أبولو ريسيرتش (Apollo Research) المختصة بتقييم الذكاء الاصطناعي، ماريوس هوبان: "تتضمن هذه الورقة البحثية إضافة قيّمة. فمعايير التطبيق ومعايير التوثيق مهمة جداً. وتجعل المقاييس المعيارية أفضل. لكن السؤال الأهم بالنسبة لي: هل هذه المقاييس تقيس الجوانب الصحيحة؟ يمكن للمقياس المعياري أن يحقق المعايير المطلوبة كلها، ويبقى على الرغم من هذا رديئاً، لأنه ببساطة لا يقيس الجوانب الصحيحة".

من حيث الجوهر، حتى لو تمكنّا من تصميم مقياس معياري مثالي، فإن المقياس المعياري الذي يختبر قدرة النموذج على تقديم تحليل مقنع لقصائد شكسبير قد يكون عديم الفائدة إذا كان شخص ما قلقاً بشدة بشأن قدرات الذكاء الاصطناعي على تنفيذ عمليات قرصنة.

تقول باحثة الذكاء الاصطناعي في جامعة ستانفورد والمشاركة في تأليف الورقة البحثية، أميليا هاردي: "سنرى مقياساً معيارياً مخصصاً لقياس التفكير الأخلاقي. غير أن معنى التفكير الأخلاقي ليس محدداً على نحو جيد بالضرورة. هل يشارك خبراء هذا المجال في عملية تصميم المقياس المعياري؟ لا يحدث هذا في أغلب الأحيان".

ثمة مؤسسات تبذل جهوداً حثيثة لتحسين الموقف. فعلى سبيل المثال، صممت المؤسسة البحثية إيبوك أيه آي (Epoch AI) مقياساً معيارياً جديداً بمشاركة 60 مختصاً بالرياضيات، وقد جرى تقييمه على أنه صعب للغاية بناء على رأي اثنين من الفائزين بجائزة فيلدز، وهي الجائزة الأشهر في مجال الرياضيات. مشاركة هؤلاء المختصين الخبراء تلبي أحد المعايير الواردة في تقييم بيتر بينش. تستطيع أكثر النماذج الحالية تطوراً أن تجيب عن أقل من 2% من الأسئلة في هذا المقياس المعياري، ما يعني أن ثمة طريقاً طويلة أمام النماذج كي تقطعها قبل أن تبلغ مرحلة الإشباع.

يقول المدير المساعد في إيبوك أيه آي، تاماي بيسير أوغلو: "لقد بذلنا جهداً كبيراً لتمثيل أقصى ما توصلت إليه الأبحاث الرياضية الحديثة". على الرغم من صعوبة الاختبار، يتوقع بيسير أوغلو أن نماذج الذكاء الاصطناعي ستحتاج إلى 4 أو 5 أعوام فقط حتى تحقق نتائج جيدة فيه.

إضافة إلى هذا، تعمل مؤسسة هندريكس، كايس، بالتعاون مع شركة سكيل أيه آي (Scale AI) على بناء مقياس معياري جديد، ويزعم هندريكس أن هذا المقياس سيضع نماذج الذكاء الاصطناعي في مواجهة أحدث ما توصلت إليه المعرفة البشرية، ويحمل هذا المقياس اسم "الامتحان الأخير للبشرية" (Humanity’s Last Exam)، أو "آتش إل إي" (HLE) اختصاراً. يقول هندريكس: "عمل فريق عالمي من الأكاديميين وخبراء المجال على تطوير آتش إل إي. يحتوي آتش إل إي على أسئلة غير غامضة وغير قابلة للحل بسهولة من خلال البحث، ويتطلب حلها قدرات ذهنية تعادل قدرات باحث يحمل درجة الدكتوراة". إذا أردت المساهمة بطرح سؤال في هذا المقياس المعياري، يمكنك ذلك من خلال هذا الرابط.

على الرغم من وجود خلافات كبيرة حول ما ينبغي قياسه بالضبط، يتفق العديد من الباحثين على حاجتنا إلى مقاييس معيارية أكثر متانة، خصوصاً أنها تمثل بوصلة لتوجيه عمل الشركات، إضافة إلى أنها تمثل أداة مهمة جداً للحكومات.

تقول هاردي: "يجب أن تكون المقاييس المعيارية جيدة للغاية. وعلينا أن نفهم ما تعنيه صفة "جيدة للغاية"، وهو ما نفتقر إليه حالياً".

المحتوى محمي