ما العيب الأساسي في طريقة تدريب نماذج الذكاء الاصطناعي؟

لا يخفى على أحد أن نماذج التعلم الآلي التي يتم ضبطها وتعديلها لتحقيق أداء شبه مثالي في المختبر غالباً ما تفشل في ظروف البيئة الحقيقية. يُعزى هذا الفشل عادةً إلى عدم التوافق بين البيانات التي تم تدريب نموذج الذكاء الاصطناعي واختباره عليها والبيانات التي يواجهها في أرض الواقع، وهي مشكلة تُعرف باسم تبدُّل البيانات. وكمثال على هذه المشكلة، فإن الذكاء الاصطناعي المدرب على اكتشاف علامات المرض في الصور الطبية عالية الجودة سيواجه صعوبات بالغة في التعامل مع الصور الباهتة أو المقتطعة التي التقطتها كاميرا رديئة في عيادة مزدحمة.

والآن، قامت مجموعة تضمّ 40 باحثاً ينتمون إلى سبع فرق مختلفة في جوجل بتحديد سبب رئيسي آخر وراء الفشل الشائع لنماذج التعلم الآلي، يُطلق عليه اسم "نقص التخصيص"، وقد يمثل تحدياً أكبر من مشكلة تبدُّل البيانات. يقول أليكس دامور الذي قاد الدراسة: "إننا نطلب من نماذج التعلم الآلي أكثر مما يمكننا ضمانه باتباع أسلوبنا الحالي".

يعتبر نقص التخصيص مشكلة معروفة في الإحصاء؛ حيث يمكن أن تنجم التأثيرات الملحوظة عن العديد من الأسباب المحتملة. وقد أراد دامور، الذي يمتلك خبرة في التفكير السببي، معرفة سبب الفشل المتكرر لنماذج التعلم الآلي الخاصة به على أرض الواقع. وتساءل عما إذا كان نقص التخصيص الذي يعرفه في الإحصاء هو سبب المشكلة في نماذج التعلم الآلي أيضاً. سرعان ما أدرك دامور أن العديد من زملائه كانوا يلاحظون نفس المشكلة في نماذجهم، ويقول: "إنها في الواقع ظاهرة يعاني منها الجميع".

توسّع بحث دامور الأوّلي وانتهى المطاف بالعشرات من باحثي جوجل إلى دراسة مجموعة من تطبيقات الذكاء الاصطناعي المختلفة، بدءاً من التعرف على الصور ومروراً بمعالجة اللغة الطبيعية (NLP) ووصولاً إلى التنبؤ بالأمراض، ووجدوا أن نقص التخصيص هو المسؤول عن ضعف أداء جميع هذه النماذج. تكمن المشكلة في الطريقة التي يتم بها تدريب نماذج التعلم الآلي واختبارها، ولا يوجد طريقة سهلة لحلّها.

ووفقاً لبراندون روهرر، مهندس التعلم الآلي في شركة آي روبوت (iRobot)، الذي عمل سابقًا في فيسبوك ومايكروسوفت ولم يشارك في البحث، فإن البحث الجديد يدمِّر الكثير من الأساليب المعتمدة حالياً.

نماذج متشابهة لكن تتباين بطرق عشوائية صغيرة

لا بدّ من توضيح بعض الأمور أولاً حتى نفهم ما يحدث بالضبط. بشكل مبسَّط، فإن بناء نموذج للتعلم الآلي يتضمن تدريبه على عدد كبير من الأمثلة ثم اختباره على مجموعة من الأمثلة المشابهة التي لم يرَها بعد. وعندما يجتاز النموذج الاختبار، يكون جاهزاً للاستخدام.

ما يشير إليه باحثو جوجل هو أن هذه العملية بسيطة للغاية ولا تتضمن درجة كافية من التمحيص؛ حيث يمكن أن تنتج عملية التدريب العديد من النماذج المختلفة التي تنجح جميعها في اجتياز الاختبار، ولكن -وهذا هو الجزء المهم- ستختلف هذه النماذج عن بعضها بطرق صغيرة وعشوائية، تبعاً لأمور مثل القيم العشوائية الابتدائية المعطاة للعُقد في الشبكة العصبونية، والطريقة التي يتم بها اختيار بيانات التدريب أو تمثيلها، وعدد تكرارات التدريب، وما إلى ذلك. عادةً ما يتم التغاضي عن هذه الاختلافات الصغيرة، والعشوائية غالباً، إذا لم تؤثر على أداء النموذج في الاختبار. ولكن اتضح الآن أنها قد تؤدي إلى تباين كبير في الأداء في العالم الحقيقي. بكلمات أخرى، لا يمكن للعملية المستخدمة في بناء معظم نماذج التعلم الآلي اليوم تمييز النماذج التي ستنجح أو تفشل في العالم الحقيقي.

وهذه مشكلة مختلفة عن تبدُّل البيانات حيث يفشل التدريب في إنتاج نموذج جيد لأن بيانات التدريب لا تتطابق مع أمثلة العالم الحقيقي.

أما نقص التخصيص فيعني شيئاً مختلفاً؛ إذ حتى لو كانت عملية التدريب قادرة على إنتاج نموذج جيد، فلا يزال من الممكن أن تمنحنا نموذجاً سيئ الأداء لأنها -مثلنا- لن تدرك الفرق بين الاثنين.

درس الباحثون تأثير نقص التخصيص في عدد من التطبيقات المختلفة. وفي كل حالة، استخدموا نفس عمليات التدريب لإنتاج نماذج متعددة للتعلم الآلي، ثم أخضعوا هذه النماذج لاختبارات الإجهاد المصممة لتسليط الضوء على اختلافات محددة في الأداء.

وعلى سبيل المثال، قاموا بتدريب 50 نسخة من نموذج التعرف على الصور على إيماج نِت (ImageNet)، وهي مجموعة بيانات لصور الأشياء التي نستخدمها في حياتنا اليومية. وكان الاختلاف الوحيد بين عمليات التدريب هو القيم العشوائية الابتدائية المعطاة للشبكة العصبونية في بداية التدريب. ومع ذلك، على الرغم من أن جميع النماذج الخمسين سجلت نفس الدرجات تقريباً في اختبار التدريب -ما يشير إلى أنها كانت بنفس الدقة- فقد تباين أداؤها بشكل كبير في اختبار الإجهاد.

انطوى اختبار الإجهاد على استخدام إيماج نِت- سي (ImageNet-C)، وهي مجموعة بيانات من صور موجودة في إيماج نت تم تقطيعها أو تغيير سطوعها وتباينها، وأوبجيكت نِت (ObjectNet)، وهي مجموعة بيانات لصور الأشياء اليومية في أوضاع غير عادية، مثل كراسي مقلوبة على ظهورها، وكؤوس شاي موضوعة رأساً على عقب، وقمصان متدلية من الخطافات. كان أداء بعض النماذج الخمسين جيداً مع الصور المقطَّعة، والبعض الآخر كان جيداً في صور الوضعيات غير العادية. وبشكل عام، كان أداء بعض النماذج أفضل بكثير من البعض الآخر. ولكن فيما يتعلق بعملية التدريب القياسية، فقد كانت جميع هذه النماذج متطابقة.

أجرى الباحثون تجارب مماثلة على نظامين مختلفين لمعالجة اللغات الطبيعية، وثلاثة أنظمة ذكاء اصطناعي طبية؛ الأول للتنبؤ بأمراض العين استناداً إلى مسح الشبكية، والثاني للتنبؤ بالإصابة بالسرطان استناداً إلى التشوهات الجلدية، والثالث للتنبؤ بالفشل الكلوي انطلاقاً من سجلات المرضى. وقد عانى كل نظام فيها من المشكلة ذاتها؛ فالنماذج التي كان من المفترض أن تتمتع بنفس الدقة سجلت مستويات متباينة من الأداء عند اختبارها باستخدام بيانات العالم الحقيقي، مثل مسوحات مختلفة للشبكية أو أنواع مختلفة من البشرة.

يقول روهرر إننا قد نحتاج إلى إعادة التفكير في كيفية تقييمنا للشبكات العصبونية، ويضيف: "تبرز هذه الدراسة بعضَ الثغرات الكبيرة في الافتراضات الأساسية التي عكفنا على اعتمادها".

يوافق دامور على هذا الكلام، ويقول: "إن أهم استنتاج مباشر لهذه الدراسة هو أننا في حاجة إلى إجراء المزيد من الاختبارات". لكن ذلك لن يكون بالأمر السهل؛ حيث إن كل اختبار إجهاد قد تم تصميمه بشكل يتناسب مع مهمة محددة باستخدام بيانات مأخوذة من العالم الحقيقي أو بيانات تحاكي العالم الحقيقي. وهذه البيانات ليست متاحة دائماً.

علاوة على ذلك، فإن بعض اختبارات الإجهاد تتعارض مع بعضها البعض؛ على سبيل المثال، فإن النماذج التي سجلت أداء جيداً في التعرف على الصور المنقطة كانت سيئة في التعرف على الصور ذات التباين العالي. وربما لن نتمكن دائماً من تدريب نموذج واحد قادر على اجتياز جميع اختبارات الإجهاد.

خيارات متعددة

يتمثل أحد الخيارات في تصميم مرحلة إضافية لعملية التدريب والاختبار. ويتم خلال هذه المرحلة إنتاج العديد من النماذج دفعة واحدة بدلاً من نموذج واحد فقط. بعد ذلك، يمكن اختبار هذه النماذج المتنافسة من جديد في مهام محددة في العالم الحقيقي من أجل اختيار أفضلها في أداء هذه المهام.

ورغم أن ذلك سيتطلب الكثير من العمل، لكن بالنسبة لشركة مثل جوجل -التي تبني وتنشر نماذج كبيرة- فقد يكون الأمر يستحق هذا العناء، كما يقول يانيك كيلتشر، باحث التعلم الآلي في المعهد الفدرالي للتكنولوجيا في زيوريخ. وهكذا، تستطيع جوجل أن تقدِّم 50 إصداراً مختلفاً من نموذج لمعالجة اللغات الطبيعية، ثم يستطيع مطورو التطبيقات اختيار الإصدار الذي يعمل بشكل أفضل بالنسبة لهم، كما يقول.

ومع أن دامور وزملاءه لا يمتلكون في جعبتهم حلاً حتى الآن، ولكنهم يستكشفون طرقاً لتحسين عملية التدريب. ويقول دامور: "نحن نحتاج إلى تحسين قدرتنا على تزويد نماذجنا بالمتطلبات التي نريدها بالضبط؛ لأن ما يحدث غالباً هو أننا لا نكتشف هذه المتطلبات إلا بعد فشل النموذج في أرض الواقع".

يعد إيجاد حل لهذه المشكلة أمراً في غاية الأهمية إذا ما أردنا أن يحقق الذكاء الاصطناعي تأثيراً كبيراً في العالم الحقيقي كالذي يحققه داخل المختبر. فعندما يكون أداء الذكاء الاصطناعي ضعيفاً في العالم الحقيقي، فإنه يقلل من رغبة الناس في استخدامه، كما تقول المؤلفة المشاركة كاثرين هيلر من جوجل، التي تعمل على تطوير أنظمة الذكاء الاصطناعي في مجال الرعاية الصحية، وتضيف: "نحن نريد أن نعيد اكتساب الثقة المهمة التي فقدناها عندما فشلت التطبيقات 'الخارقة' في تقديم الأداء المنتظر منها".