اختبارات سلامة الذكاء الاصطناعي تحت المجهر: عيوب جوهرية وتوصيات للإصلاح

5 دقيقة
اختبارات سلامة الذكاء الاصطناعي تحت المجهر: عيوب جوهرية وتوصيات للإصلاح
حقوق الصورة: shutterstock.com/PopTika

يحذر الخبراء من أنه على الرغم من أن نماذج الذكاء الاصطناعي تحقق نتائج مرتفعة في المعايير المرجعية، فإن تلك الاختبارات قد لا تعكس قدراتها الحقيقية أو مخاطرها الفعلية.

  • كشفت دراسة دولية أن معظم المعايير المرجعية تحتوي على نقاط ضعف منهجية جوهرية، تشمل ضعف الصرامة الإحصائية …

بينما تتركز أنظار العالم ومخاوفه على القدرات المتنامية لنماذج الذكاء الاصطناعي الجديدة، وسط تساؤلات حول ما إذا كانت ستخرج عن السيطرة وما إذا كانت ستستبدل الوظائف البشرية، بدأ بعض الباحثين يشيرون إلى أننا ربما أغفلنا جانباً مهماً من الذكاء الاصطناعي، وهو الاختبارات المستخدمة لقياس قدرات هذه النماذج الجديدة. بمعنى أن المشكلة قد لا تكمن في "الآلة" نفسها بل في "المسطرة" التي نقيس بها صلاحية هذه الآلة.

المعايير المرجعية: الأداة المتاحة لقياس قدرات الذكاء الاصطناعي

في ظل غياب إطار تنظيمي شامل يضبط عمل تقنيات الذكاء الاصطناعي حتى الآن، أصبحت المعايير المرجعية (Benchmarks) تمثل عملياً الأداة الأساسية لضمان جودة النماذج الجديدة. تستخدم هذه الاختبارات لفحص ما إذا كانت النماذج آمنة ومتوافقة مع القيم الإنسانية وقادرة على تحقيق المهام المطلوبة في مجالات مثل الاستدلال المنطقي والبرمجة والرياضيات. وتعتمد مختلف المؤسسات وشركات التكنولوجيا الكبرى على نتائج هذه الاختبارات لتبرير إطلاق نماذجها الجديدة وتسليط الضوء على مستوى التقدم الذي حققته.

تتيح هذه الاختبارات لشركات الذكاء الاصطناعي تحديد مواطن ضعف نماذجها وإجراء تحسينات استناداً إلى نتائجها في الإصدارات المستقبلية، كما أنها عادة ما تعد المقياس المستخدم في اتخاذ قرارات السياسات أو اللوائح التنظيمية المرتبطة بهذا المجال.

لكن إلى أي مدى تعبر هذه الاختبارات حقا عما يفترض أن تقيسه؟ تشير دراسة أجراها فريق دولي من الخبراء إلى أن الكثير من الاختبارات المستخدمة لتقييم سلامة نماذج الذكاء الاصطناعي وفاعليتها تعاني عيوباً منهجية تقوض موثوقية نتائجها. 

فحص الفريق المكون من 42 باحثاً من مؤسسات عالمية مرموقة منها جامعات ستانفورد وييل وبيركلي والجامعة التقنية في ميونيخ ومعهد أمان الذكاء الاصطناعي في المملكة المتحدة 445 معياراً مرجعياً تشكل شبكة أمان مهمة للنماذج، وخلصوا إلى أن "جميعها تقريباً" يحتوي على نقاط ضعف في جانب واحد على الأقل، وأن الكثير من المخرجات الناتجة قد تكون "غير ذات صلة أو حتى مضللة".

فبدلاً من التركيز على فهم حقيقي لقدرات الذكاء الاصطناعي ومخاطره، تركز هذه الاختبارات في الغالب على ما يسهل قياسه من أرقام ونتائج، دون أن تعكس الصورة الكاملة لقدرة النموذج أو سلامته في الواقع العملي. وقد كشفت المراجعة العلمية للمعايير عن مجموعة من نقاط الضعف المنهجية، من أبرزها ضعف الصرامة الإحصائية، إذ لم يستخدم سوى 16% فقط من هذه المعايير تقديرات لعدم اليقين أو اختبارات إحصائية لإظهار مدى دقة النماذج، وهو ما يعني أن كثيراً من المزاعم بتفوق نموذج على آخر لا تستند إلى دليل قاطع على التحسن، وبالتالي فمن الصعب التأكد مما إذا كانت الفوارق حقيقية أم ناجمة عن الصدفة.

بالإضافة إلى ذلك، اتضح أن 47.8% من تلك الاختبارات تقيس مفاهيم مجردة مثل "الاستدلال" أو "السلامة وعدم الضرر" دون أن تقدم تعريفاً واضحاً ومتفقاً عليه لهذه المصطلحات. ويترك غياب التعريف الدقيق مجالاً واسعاً للتأويل، ويضعف ثقة المستخدمين فيما يقاس فعلياً.

اقرأ أيضاً: مجالات احذر استخدام الذكاء الاصطناعي فيها

فجوة بين أداء النماذج في الاختبارات وسلوكها في الواقع

أشار الخبراء أيضاً إلى أن العديد من الاختبارات يستند إلى منهجيات تحليل ضعيفة، ما يجعل من الصعب تقييم قدرات النموذج أو قياس تقدمه بدقة. فعلى سبيل المثال، قد يفشل النموذج في أحد الاختبارات لمجرد إخفاقه في تنسيق الإجابة وفق قواعد صارمة محددة سلفاً، على الرغم من أنه حل المسألة المطلوبة بشكل صحيح. وقد يحقق نموذج آخر أداءً ممتازاً في مجموعة مسائل حسابية بسيطة، لكنه يفشل بشكل مفاجئ عند تغيير صيغة السؤال أو تبديل بعض الأرقام، ما يشير إلى أنه ربما يعتمد على حفظ الأنماط في البيانات بدلاً من فهم المشكلة فعلاً. ومثل هذه الأمثلة تبين أن الاختبار المعياري قد يعطي انطباعاً مضللاً عن قدرات النموذج الحقيقية، إذ يبدو ناجحاً ضمن نطاق محدد بينما ينهار أداؤه عند اختلاف صيغة المشكلة.

وتأتي هذه النتائج في وقت تتزايد فيه المخاوف بشأن سلامة أنظمة الذكاء الاصطناعي ودقتها، خصوصاً مع تسارع وتيرة إطلاق النماذج الجديدة من قبل الشركات المتنافسة. ومن الملاحظ أن بعض تلك النماذج -رغم تحقيقها نتائج مرتفعة في الاختبارات المعيارية- واجهت إخفاقات خطيرة عند الاحتكاك بالواقع. وخلال الأسابيع الأخيرة وحدها، برزت عدة وقائع مثيرة للقلق حول العالم، من بينها حوادث أقدم فيها أشخاص على إنهاء حياتهم بعد علاقات مضطربة مع بوتات دردشة، حيث تقدم أنظمة الذكاء الاصطناعي أحياناً نصائح بشأن كيفية الانتحار.

تبرز مثل هذه الحوادث وجود فجوة بين أداء النماذج داخل بيئات الاختبار المغلقة وسلوكها عند التعامل مع الواقع الفعلي. فقد يحصل نموذج ما على تقييم مرتفع في اختبار "عدم إنتاج معلومات ضارة"، إلا أنه قد يصدر محتوى شديد الخطورة عند تفاعله مع مستخدم حقيقي في ظرف غير متوقع. وبالمثل، قد يتصدر نموذج آخر اختبارات المنطق، لكنه ربما يفشل في التطبيق الفعلي في التمييز بين الحقيقة والخيال، ما يفضي إلى معلومات مضللة.

اقرأ أيضاً: هل ضحت شركة ديب سيك بإجراءات السلامة من أجل منافسة الشركات الأميركية؟

توصيات وحلول مقترحة لتحسين الاختبارات

بعد تشخيص هذه المشكلات، قدمت الدراسة 8 توصيات لتحسين صحة وموثوقية معايير الأداء الخاصة بالذكاء الاصطناعي. وتشمل هذه التوصيات:

  1. تعريف واضح لما يقاس: يجب على الباحثين تقديم تعريف دقيق وعملي للمفهوم أو المهارة التي يسعى المعيار إلى قياسها. وفي الحالات التي تتعدد فيها التعريفات المحتملة أو تغيب فيها صياغة موحدة، توصي الدراسة باعتماد تعريف محدد وذكره صراحة -وإن لزم الأمر صياغة تعريف سلبي لما ليس جزءاً من الظاهرة- لضبط حدودها.
  2. قياس الظاهرة نفسها فقط: عند تصميم مهمة التقييم، يجب التركيز على قياس الظاهرة المستهدفة دون غيرها، عبر التحكم في المهام الفرعية والعوامل غير المرغوب بها التي قد تؤثر في الأداء. على سبيل المثال، إذا كان المعيار يستلزم معرفة خارجية (كمعرفة حقائق عن العالم) دون أن يكون الهدف قياس هذه المعرفة، فيجب اختبار المعرفة المطلوبة مسبقاً وضبط النتائج بناءً على ذلك، كي لا يعاقب النموذج على نقص في المعلومات العامة بدلاً من نقص في المهارة المستهدفة. وبشكل عام، ينبغي عزل أي عوامل غير مستهدفة (كالتنسيق أو الذاكرة أو غيرها) والتأكد من أنها لا تؤثر في التقييم الأساسي لقدرة النموذج.
  3. تمثيل الظروف الواقعية: لضمان أن تكون نتائج الاختبار ذات دلالة عملية، يجب أن تبنى معايير التقييم على بيانات وحالات تمثل ظروف العالم الحقيقي قدر الإمكان. يتطلب ذلك تنويع صياغات الأسئلة والسيناريوهات بحيث تغطي النطاق الكامل للمهارة الخاضعة للتقييم.
  4. الإقرار بمحدودية إعادة استخدام البيانات: في كثير من الأحيان يعاد استخدام مجموعات بيانات أو أسئلة سابقة في اختبارات جديدة، وهذا قد يؤدي إلى تحيز النتائج. يوصي الباحثون بالانتباه إلى أن إعادة توظيف البيانات القديمة قد لا تعكس النطاق الحقيقي للظاهرة المراد قياسها، وبالتالي ينبغي توخي الحذر وضبط التوقعات عند البناء على اختبارات سابقة.
  5. الاستعداد لاحتمال "تلوث" البيانات: يقصد بذلك اتخاذ احتياطات لمنع تسرب المعرفة المسبقة لدى النماذج إلى نتائج الاختبار. فإذا كان النموذج قد تدرب سابقاً على جزء من أسئلة الاختبار أو بياناته، ينبغي كشف ذلك واعتباره عاملاً ملوثاً يفقد الاختبار مصداقيته.
  6. استخدام منهجيات إحصائية صارمة: التأكد من استخدام أساليب الإحصاء لقياس عدم اليقين في النتائج والمقارنة بين النماذج المختلفة. وعلى مطوري الاختبارات تضمين اختبارات دلالة إحصائية وفروق معنوية للتأكد من أن أي تفوق لنموذج معين ليس نتيجة الصدفة، بل يعكس تقدماً حقيقياً في القدرات.
  7. إجراء تحليل للأخطاء: بدلاً من الاكتفاء بمنح النموذج درجة نهائية، يتعين إجراء تحليل نوعي وكمي للأخطاء التي تقع فيها النماذج لفهم طبيعتها وأسبابها: هل تنشأ حقاً نتيجة قصور في القدرة المستهدفة (مثل عجز حقيقي في الاستدلال المنطقي) أم بسبب عامل خارجي كصعوبة فهم سؤال معين أو نقص في معلومة خارجية؟ هذا التحليل المفصل يساعد الباحثين على فهم حدود النموذج بشكل أعمق، وتوجيه التحسينات المستقبلية بناءً على ذلك.
  8. تبرير صلاحية الاختبار: يتعين على واضعي الاختبارات تقديم مبررات علمية واضحة تربط بين الاختبار والخاصية المستهدفة لإثبات أن الاختبار يعد حقاً مقياساً صالحاً لما يدعي قياسه.

لطالما اعتُبر اجتياز نماذج الذكاء الاصطناعي لاختبارات السلامة بمثابة "الضوء الأخضر" لإطلاقها في حياتنا ومؤسساتنا. لكن ماذا لو كان هذا الضوء الأخضر ناتجاً عن عطل في إشارة المرور نفسها؟ هذا التساؤل ينبغي أن يمثل نقطة انطلاق لإعادة النظر في منهجية تقييم الذكاء الاصطناعي، بحيث يصبح التحقق الصارم من صلاحية المقياس خطوة أساسية ومعتادة عند تقديم أي معيار جديد.

اقرأ أيضاً: سباق التسلح القادم: كيف تستعد الشركات لمواجهة الجرائم المدعومة بالذكاء الاصطناعي؟

لذلك، طور فريق البحث بالفعل قائمة تدقيق تفصيلية (Construct Validity Checklist) يمكن للباحثين والمطورين استخدامها للتحقق من سلامة تصميم الاختبار قبل الاعتماد على نتائجه. الهدف هو إرساء معايير موحدة يتفق عليها المجتمع البحثي والصناعي، بحيث تصبح اختبارات الذكاء الاصطناعي أكثر شفافية وموثوقية في المستقبل.

المحتوى محمي