ما الحل إذا نفدت بيانات تدريب الذكاء الاصطناعي؟

في عالم صناعة الذكاء الاصطناعي، تُعدُّ البيانات شريان الحياة الذي يغذي الابتكار ويمكّن الآلات من التعلم والتفكير واتخاذ القرارات، ومن ثَمَّ مع ازدياد تطور تطبيقات الذكاء الاصطناعي وتنوعها من المتوقع أن تصل قيمة الطلب على مجموعات بيانات التدريب الواسعة والعالية الجودة إلى أكثر من 6 مليارات دولار بحلول عام 2028، ما يمثّل تحدياً هائلاً للصناعة.

فمع تعمق تطبيقات الذكاء الاصطناعي في مجالات متخصصة أو حدود جديدة، أصبح الحصول على بيانات التدريب ذات الصلة والمتنوعة صعباً أكثر من أي وقتٍ مضى، حيث ينبع النقص في بيانات التدريب من عددٍ لا يُحصى من الأسباب؛ بدءاً من المخاوف المتعلقة بالخصوصية التي تحد من إمكانية الوصول إلى البيانات إلى التكاليف الباهظة المرتبطة بالجهود المكثفّة لجمع البيانات، فما الحلول التي ينبغي اتخاذها عندما تنفد بيانات تدريب أنظمة الذكاء الاصطناعي؟

ما هي بيانات تدريب أنظمة الذكاء الاصطناعي ولماذا هي مهمة؟

بيانات تدريب الذكاء الاصطناعي (AI Training Data) هي عبارة عن المعلومات أو الأمثلة المستخدمة لتدريب نماذج الذكاء الاصطناعي، أو هي عبارة عن بيانات مصنفة تُستخدم لتعليم نماذج الذكاء الاصطناعي أو خوارزميات التعلم الآلي لاتخاذ القرارات المناسبة من خلال تحليل الأنماط وتعميمها من مجموعة البيانات التي دُربت عليها سابقاً، وتأتي هذه البيانات بتنسيقات مختلفة مثل النصوص والصور والصوت والفيديو.

وتُعدُّ جودة وكمية بيانات التدريب أمراً بالغ الأهمية لدقة نماذج التعلم الآلي وفاعليتها، فكلما كانت البيانات أكثر تنوعاً وتمثيلاً وشمولاً كان نموذج الذكاء الاصطناعي قادراً على الأداء بشكلٍ أفضل. وعلى العكس من ذلك، يمكن أن تؤدي بيانات التدريب المتحيزة أو غير الكاملة إلى توقعات غير دقيقة أو غير عادلة.

على سبيل المثال، إذا دُرِّب نظام الذكاء الاصطناعي على التعرف على الأصوات البشرية ولكن فقط على بيانات من مجموعة عرقية واحدة أو لهجة واحدة، فمن المرجح أن يكون أداء النظام سيئاً وغير مناسب مع الأشخاص الموجودين في مناطق أخرى أو لديهم لهجات مختلفة، ولهذا السبب من الضروري اختيار بيانات التدريب ومعالجتها مسبقاً بعناية لضمان تمثيلها المجموعة السكانية المستهدفة وتصنيفها بدقة وثبات.

أهمية وجود بيانات تدريب ذات جودة عالية لأنظمة الذكاء الاصطناعي

تُعدُّ بيانات تدريب الذكاء الاصطناعي ذات الجودة العالية ضرورية لتطوير نماذج دقيقة وموثوقة، وبدون مجموعة كبيرة ومتنوعة من البيانات المصنَّفة، لن تتمكن نماذج الذكاء الاصطناعي من تعلم الأنماط والعلاقات اللازمة لإجراء تنبؤات دقيقة، بالإضافة إلى:

تسمح لنماذج الذكاء الاصطناعي بمعرفة الأنماط والعلاقات الموجودة في البيانات، وضرورية لأي نموذج ذكاء اصطناعي يحتاج إلى الخروج بتنبؤات أو اتخاذ إجراءات موثوقة.
تساعد نماذج الذكاء الاصطناعي على التعميم على البيانات الجديدة، وهذا يعني أن نموذج الذكاء الاصطناعي الذي دُرِّب على مجموعة واحدة من البيانات سيكون قادراً على الأداء بشكلٍ جيد على بيانات مماثلة مُدخلَة إليه حديثاً.
تعمل على تحسين دقة وموثوقية نماذج الذكاء الاصطناعي، فكلما كانت مجموعة البيانات التي دُرِّب نموذج الذكاء الاصطناعي عليها كبيرة، كان قادراً على أداء المهمة المطلوبة منه بشكلٍ أفضل.

أنواع بيانات تدريب أنظمة الذكاء الاصطناعي

تأتي بيانات تدريب الذكاء الاصطناعي في أنواع مختلفة يخدم كلٌّ منها أغراضاً محددة، ويلبي المتطلبات المميزة لخوارزميات التعلم الآلي. فيما يلي ثلاثة أنواع رئيسية لبيانات تدريب الذكاء الاصطناعي:

مجموعات بيانات التعلم الخاضعة للإشراف: وهو النوع الأكثر شيوعاً للتعلم الآلي، يتطلب بيانات مصنَّفة وتتكون من بيانات الإدخال، مثل الصور أو النصوص، وتسميات المخرجات أو التعليقات التوضيحية المرتبطة بها، والتي تصفُ ما تمثله البيانات أو كيفية تصنيفها.
مجموعات بيانات التعلم غير الخاضعة للرقابة: فيها لا تُصنَّف البيانات، بدلاً من ذلك تُترك الخوارزمية للعثور على الأنماط والعلاقات في البيانات بمفردها، وغالباً ما تُستخدم خوارزميات التعلم غير الخاضعة للرقابة للتجميع أو اكتشاف الحالات الشاذة.
مجموعات بيانات التعلم المعزز: فيها يتعلم نموذج الذكاء الاصطناعي اتخاذ القرارات بناءً على التفاعلات مع بيئته، مثل المكافآت أو العقوبات على إجراءات محددة.

اقرأ أيضاً: كيف «يفكر» الذكاء الاصطناعي؟

كم تحتاج أنظمة الذكاء الاصطناعي من بيانات لتدريبها بشكل موثوق؟

يمكن أن يختلف حجم بيانات التدريب لأنظمة الذكاء الاصطناعي بشكلٍ كبير اعتماداً على مدى تعقيد المهمة، ونوع الخوارزمية أو النموذج المستخدم، ومستوى الأداء المطلوب، وبشكلٍ عام غالباً ما تكون مجموعات البيانات الأكبر حجماً مفيدة خاصة لنماذج التعلم العميق.

وبالنسبة لبعض النماذج، قد تكون بضعة آلاف من الأمثلة كافية، بينما للنماذج الأكثر تعقيداً قد تتكون مجموعات بيانات تدريبها من ملايين أو حتى مليارات من نقاط البيانات، وفيما يلي بعض الأمثلة للتوضيح:

التعرّف على الصور: بالنسبة لمهام تصنيف الصور البسيطة قد تكون مجموعات البيانات التي تحتوي على 60 ألف صورة تدريبية كافية.
معالجة اللغات الطبيعية: بالنسبة للمهام اللغوية الأساسية، قد تكون بضعة آلاف من الأمثلة كافية، بينما تُدرب النماذج اللغوية الكبيرة الحديثة مثل جي بي تي 3 على مجموعات بيانات ضخمة تحتوي على مئات الغيغابايتات أو حتى تيرابايت من البيانات النصية.
التعرّف على الكلام: يمكن تدريب نماذج التعرف التلقائي على الكلام على مجموعات بيانات كبيرة تحتوي على ساعات من التسجيلات الصوتية.
السيارات الذاتية القيادة: يمكن أن تكون مجموعات البيانات التدريبية للسيارات الذاتية القيادة واسعة النطاق، وتتضمن تيرابايت من بيانات أجهزة الاستشعار التي جُمِعت من سيناريوهات القيادة الحقيقية.
الرعاية الصحية: يمكن أن تختلف مجموعات بيانات التصوير الطبي لمهام مثل تشخيص الأمراض من خلال الأشعة السينية أو التصوير بالرنين المغناطيسي في الحجم، ولكنها قد تشمل الآلاف إلى الملايين من الصور.

ما الحل إذا نفدت بيانات تدريب أنظمة الذكاء الاصطناعي؟ وهل توجد طريقة لمعالجة المشكلة؟

مع وصول الذكاء الاصطناعي إلى ذروة شعبيته، ظهرت تحذيرات من الخبراء والباحثين من نفاد بيانات التدريب التي تُعتبر بمثابة الوقود الذي يشغّل أنظمة الذكاء الاصطناعي، ويأتي التحذير من أن النقص أو النفاد قد يؤدي إلى إبطاء نمو نماذج الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة، وربما يغيّر مسار ثورة الذكاء الاصطناعي بأكمله.

فوفقاً لورقة بحثية أجراها باحثون من مركز إيبوك (Epoch)، وهو مركز يعمل في مجال أبحاث وتنبؤات الذكاء الاصطناعي، فإن البيانات اللازمة لتدريب نماذج الذكاء الاصطناعي قد تنفد بنهاية عام 2026، وتنبع المشكلة بحسب ورقة البحث من حقيقة أنه بينما يقوم الباحثون ببناء نماذج أكثر قوة بقدرات أكبر فإنه يتعين عليهم العثور على المزيد من النصوص لتدريبهم عليها، وهو ما يجعل الباحثون يشعرون بالقلق بشكلٍ متزايد من نفاد هذا النوع من البيانات.

بالإضافة إلى ذلك، فإن المشكلة تنبع جزئياً من حقيقة أن الباحثين في مجال الذكاء الاصطناعي يُصفّون البيانات التي يستخدمونها لتدريب النماذج إلى فئتين، هما: البيانات العالية الجودة والبيانات المنخفضة الجودة، وتتكون البيانات المنخفضة الجودة من نصوص مثل منشورات وسائل التواصل الاجتماعي أو التعليقات على مواقع الويب والتي تفوق كميتها بشكلٍ كبير البيانات العالية الجودة.

ولهذا السبب عادةً يدرب الباحثون النماذج فقط باستخدام البيانات التي تندرج ضمن فئة الجودة العالية، لأنها النوع الذي يريدون من النماذج إعادة إنتاجه، وقد أدّى هذا النهج إلى ظهور نماذج لغوية قوية وموثوقة بدرجة كبيرة مثل نموذج جي بي تي 3.5 (GPT 3.5) الذي دُرِّب على أكثر من 570 غيغابايت من البيانات النصية، وهو ما يمثّل نحو 300 مليار كلمة.

وبالمثل، دُرِّبت نماذج الانتشار (Diffusion Models) التي تقف وراء العديد من تطبيقات الذكاء الاصطناعي لتوليد الصور مثل دال-إي (DALL-E)، على مجموعة بيانات بلغت نحو 5.8 مليارات زوج من الصور والنصوص، وهذا يعود إلى أنه إذا دُرِّبت نماذج الذكاء الاصطناعي على كمية غير كافية من البيانات فسوف تنتج مخرجات غير دقيقة أو منخفضة الجودة.

بالإضافة إلى ذلك تعتبر جودة بيانات التدريب مهمة للغاية. فعلى سبيل المثال من السهل الحصول على البيانات المنخفضة الجودة، ولكنها لن تكون كافية لتدريب نماذج الذكاء الاصطناعي العالية الأداء، فقد يكون النص المأخوذ من منصات التواصل الاجتماعي متحيزاً أو قد يتضمن معلومات مضللة أو محتوى غير قانوني يمكن أن يكرره النموذج، ولهذا السبب يبحث مطورو الذكاء الاصطناعي عن محتوى عالي الجودة مثل النصوص من الكتب والمقالات عبر الإنترنت والأوراق العلمية وويكيبيديا، وبعض محتويات الويب التي تمت تصفيتها.

ما أبرز طرق معالجة احتمالية نفاد بيانات التدريب الكافية لنماذج الذكاء الاصطناعي؟

في حين أن نفاد بيانات التدريب الكافية لنماذج الذكاء الاصطناعي قد يكون مثيراً للقلق للعديد من الأطراف في الصناعة، إلّا أن الوضع قد لا يكون سيئاً كما يبدو، حيث يمكن اتخاذ العديد من الإجراءات والطرق لمعالجة مخاطر نفاد البيانات أو نقصها، من ضمنها:

تحسين الخوارزميات للتمكن من استخدام البيانات المتوفرة بالفعل بشكلٍ أكثر كفاءة، من خلال تدريب أنظمة الذكاء الاصطناعي العالية الأداء باستخدام بيانات أقل وربما حتى قوة حوسبة أقل، والذي من شأنه أن يساعد على تقليل البصمة الكربونية لصناعة الذكاء الاصطناعي.
استخدام البيانات الصناعية (Synthetic Data) التي يُحصل عليها من خدمات توليد البيانات مثل موستلي أيه آي (Mostly AI)، والمتوقع لها أن تصبح الأسلوب الأكثر شيوعاً لتدريب نماذج الذكاء الاصطناعي في المستقبل.
استخدام أسلوب التعلم النشط (Active Learning) الذي يسمح لنماذج الذكاء الاصطناعي باختيار البيانات الأكثر إفادة للتعلم منها، ما يُمكّن من تحسين كفاءة عملية التدريب
إطالة عمر البيانات المستخدمة لتدريب النماذج اللغوية الكبيرة، ففي الوقت الحالي تُدرّب النماذج على البيانات نفسها مرة واحدة فقط وذلك بسبب القيود المفروضة على الأداء والتكلفة، ولكن قد يكون من الممكن تدريب النموذج عدة مرات باستخدام البيانات نفسها.
استخدام المحتوى المحمي بحقوق الملكية أو المحتوى المدفوع بشكلٍ قانوني، والذي يمكن أن يوفّر مصدراً جديداً للبيانات لتدريب نماذج الذكاء الاصطناعي.
استخدام أسلوب التعلم الموحد أو التعلم التعاوني (Federated Learning) الذي يسمح بتدريب نماذج الذكاء الاصطناعي على مجموعات البيانات اللامركزية دون الحاجة إلى جمع البيانات وتخزينها في موقع مركزي واحد، ويمكن أن يساعد هذا الأسلوب على معالجة المخاوف المتعلقة بخصوصية البيانات.
تركيز المطورين على أن تدريب نماذج الذكاء الاصطناعي على حجم كبير من البيانات قد لا يكون بالضرورة هو الأفضل، بدلاً من ذلك يمكن للنماذج الأصغر التي تُدرب على بيانات عالية الجودة أن تتفوق في الأداء على النماذج الأكبر التي تُدرب على بيانات أقل جودة.

أبرز تحديات الحصول على بيانات تدريب عالية الجودة لأنظمة الذكاء الاصطناعي

في حين أن بيانات تدريب الذكاء الاصطناعي عالية الجودة ضرورية لبناء نماذج دقيقة وفعّالة وعادلة، إلّا أن الحصول عليها قد يكون أمراً صعباً، ويرجع ذلك إلى العديد من الأسباب منها:

مراقبة الجودة: قد يكون ضمان جودة بيانات التدريب أمراً صعباً، خاصة عندما يتعلق الأمر بوضع العلامات اليدوية، حيث يمكن أن يؤثّر عدم الاتساق والأحكام الذاتية في جودة البيانات.
عدم التوفر: قد يكون الحصول على البيانات صعباً، خاصة بالنسبة للمجالات المتخصصة أو الحساسة.
التكلفة: قد يكون الحصول على بيانات عالية الجودة مكلفاً، خاصة إذا كان من الضروري جمعها وتصنيفها يدوياً.
تصنيف البيانات: اعتماداً على المشكلة التي تُحل، قد يتطلب الحصول على بيانات تدريب عالية الجودة للذكاء الاصطناعي جهوداً مكثّفة لوضع العلامات وهو ما قد يستغرق وقتاً طويلاً ومكلفاً.
حجم البيانات: قد يمثّل الحصول على ما يكفي من البيانات العالية الجودة تحدياً، خاصة عندما يتعلق الأمر بنماذج التعلم العميق التي تتطلب كميات كبيرة من البيانات لتحقيق دقة عالية.