كيف يؤثّر نقص بيانات التدريب في كفاءة نماذج الذكاء الاصطناعي التوليدي؟

تُعدّ بيانات التدريب بمثابة شريان حياة أو وقود لنماذج الذكاء الاصطناعي التوليدي، وتعمل شركات الذكاء الاصطناعي بكل جهدها للحصول على بيانات عالية الجودة لاستخدامها في تدريب نماذجها حتى تتمكن من إنشاء محتوى شبيه بالبشر، ولكن وسط السباق المحتدم للحصول على نماذج تُلبي تطلعات المستهلكين وتوقعاتهم، برزت مخاوف وتحذيرات قوية بشأن احتمالية نقص بيانات التدريب الكافية.

فقد بدأ العديد من العاملين في قطاع الذكاء الاصطناعي يلفتون الانتباه إلى أن نقص بيانات التدريب عالية الجودة من شأنه أن يؤدي إلى تدهور كفاءة نموذج الذكاء الاصطناعي التوليدي نفسه، وهذا يعود إلى أنه بدلاً من أن يُنشئ البشر محتوى أصلياً يُستغل لاحقاً في تدريب النماذج نفسها، بدأ البشر أنفسهم بالاتجاه إلى نماذج الذكاء الاصطناعي التوليدي لإنتاج المحتوى.

هذه الظاهرة تُسمَّى انهيار النموذج (Model Collapse)، وهو مصطلح يشير إلى انخفاض جودة المخرجات وتنوعها، لأن النماذج تُدرب على مخرجاتها السابقة بدلاً من البيانات الجديدة التي ينتجها الإنسان. وبمرور الوقت يمكن أن يؤدي هذا الأمر إلى إنشاء حلقة تغذية مرتدة، حيث يصبح المحتوى الناتج موحداً بشكلٍ متزايد وأقل انعكاساً للتجارب البشرية المتنوعة.

سرعة تطوير نماذج الذكاء الاصطناعي التوليدي قد تؤثّر في كفاءتها مستقبلاً

منذ فترة طويلة، بدأ المراقبون في قطاع الذكاء الاصطناعي يراقبون بحماس القدرات المتزايدة لإصدارات نماذج الذكاء الاصطناعي التوليدي المختلفة، وبدوا أكثر تفاءلاً بشأن قدرات هذه النماذج وأدائها في المستقبل عند تطبيق قانون التوسع (Scaling laws)، وهو قانون يظهر أن أداء نماذج اللغة الكبيرة يميلُ إلى التحسن بشكلٍ متوقع مع زيادة حجم النماذج (المزيد من المعلمات) وتدريبها على المزيد من البيانات، ويمكّنها من المزيد من القوة الحسابية (الحوسبة).

على الرغم من ذلك، في الفترة الأخيرة استُبدل هذا التفاؤل بمخاوف من أننا قد نصل بالفعل إلى أقصى حدود قدرات نماذج اللغة الكبيرة المدربة على الأساليب القياسية في وقتٍ قريب للغاية، حيث يرى العديد من المراقبين أن مشكلة تدريب نماذج الذكاء الاصطناعي التوليدي تنبع من الافتقار إلى بيانات جديدة وعالية الجودة للتدريب عليها.

لتحديد المشكلة بشكلٍ علمي قدر باحثون في ورقة بحثية نُشرت مؤخراً، أن مخزون البيانات المتوفرة في فضاء الإنترنت العام والتي أنشأها الإنسان تُقدّر بنحو 300 تريليون رمز (معلمة)، مع الإشارة إلى أن هذا الرقم يتضمن فقط البيانات عالية الجودة المطلوبة لتدريب النماذج اللغوية الكبيرة الممتازة مثل تشات جي بي تي وجيميناي وكلود وغيرها.

كما ذكروا في ورقتهم البحثية أنه إذا استمرت النماذج اللغوية الكبيرة في النمو بالسرعة نفسها التي نشاهدها الآن، فمن المتوقع أن تستهلك هذا المخزون بشكلٍ كامل بين عامي 2026 و2032، أو حتى قبل ذلك، إذا تدربت بشكلٍ مكثّف، ومن ثَمَّ فإن الافتقار إلى بيانات التدريب الكافية عالية الجودة مستقبلاً قد يعوق بشدة كفاءة نماذج الذكاء الاصطناعي التوليدي وموثوقيتها، وقد يؤثّر في عملها وإنتاج مخرجات جديرة بالثقة.

تأثير نقص بيانات التدريب في موثوقية نماذج الذكاء الاصطناعي التوليدي

تتأثر كفاءة نماذج الذكاء الاصطناعي التوليدي وفاعليتها بشكلٍ كبير بجودة بيانات التدريب التي تستخدمها وكميتها، حيث يمكن أن يؤدي نقص بيانات التدريب أو جودتها الرديئة إلى العديد من المشكلات التي قد تضعف أداءها ومنها:

1- فرص تعلم غير كافية للنماذج

يمكن أن يؤدي هذا إلى:

الأداء الضعيف: قد تكافح النماذج المدربة على مجموعات بيانات محدودة لتقديم تنبؤات دقيقة أو إنشاء محتوى ذي صلة، على غرار الطالب الذي يراجع بضع صفحات فقط من أجل تقديم امتحان مادة دُرِّست على مدار العام الدراسي.
الإفراط في التخصيص: قد يصبح النموذج متخصصاً بشكلٍ مفرط في البيانات المحدودة التي تدرب عليها، ويفشل في الأداء الجيد على البيانات الجديدة غير المرئية.

2- مخرجات غير دقيقة ومتحيزة

يمكن أن تؤدي إلى:

مخرجات غير دقيقة: إذا تعلمت النماذج من البيانات منخفضة الجودة، فقد تنتج رؤى أو مخرجات مضللة يمكن أن تكون ضارة في التطبيقات الحرجة مثل الرعاية الصحية أو التمويل.
التحيز والتمييز: يمكن أن يؤدي التدريب على مجموعات البيانات المتحيزة إلى مخرجات تمييزية، ما يؤدي إلى استمرار التفاوتات القائمة ويؤدي إلى مخاوف أخلاقية.

3- عدم استقرار النموذج

يمكن أن يؤدي إلى:

مخرجات غير موثوقة: يمكن أن تتسبب بيانات التدريب غير المتسقة في توليد النموذج لاستجابات غير منتظمة، ما يجعله غير مناسب للتطبيقات في العالم الحقيقي حيث تكون الموثوقية أمراً بالغ الأهمية.
صعوبة النشر: قد تجد الشركات صعوبة في نشر مثل هذه النماذج في السيناريوهات العملية بسبب عدم القدرة على التنبؤ بها.

4- التعميم المحدود

يمكن أن يؤدي إلى:

التركيز الضيق: قد تصبح النماذج ماهرة في إنشاء محتوى ذي صلة فقط بأنواع البيانات المحددة التي دُرب عليها، ما يحدُّ من قابلية تطبيقها عبر سياقات مختلفة.
عدم الصلة بالوقت: يمكن أن تؤدي بيانات التدريب القديمة أو غير ذات الصلة إلى إنتاج نماذج لمحتوى لم يعد قابلاً للتطبيق أو مفيداً، خاصة في القطاعات التي تنمو بسرعة.

5- الآثار الأخلاقية

تمتد عواقب استخدام بيانات التدريب غير الكافية إلى ما هو أبعد من الأداء الفني، كما أنها تُثير مخاوف أخلاقية مثل:

انتشار المعلومات المضللة: قد تولّد النماذج المدربة على بيانات منخفضة الجودة معلومات غير صحيحة عن غير قصد، ما يسهم في انتشار المعلومات المضللة.
انتهاكات الخصوصية: يمكن أن تؤدي بيانات التدريب ذات المصدر السيئ إلى انتهاكات للخصوصية والمعايير الأخلاقية، خاصة إذا تم تضمين معلومات حساسة دون موافقة مناسبة.

ما هو الحل لمشكلة نقص بيانات تدريب نماذج الذكاء الاصطناعي التوليدي؟

مع السباق المتسارع بين الشركات لتطوير نماذج اللغة الكبيرة التي تستهلك كميات هائلة من البيانات بغرض التدريب، ذكرت بعض التقارير أنها قد استنفدت بالفعل البيانات المجانية كلّها التي يمكن الوصول إليها بسهولة، ما جعلها تلجأ إلى البيانات المحمية بحقوق الملكية الفكرية بموجب قانون الاستخدام العادل. بالإضافة إلى ذلك، يُعدّ نقص الطاقة في عمليات التدريب من ضمن الأسباب الرئيسية التي تعوق تطوير هذه النماذج التي تتطلب عملية تدريبها كميات هائلة من الطاقة.

للتغلب على هذه التحديات، بدأ الباحثون استكشاف العديد من التقنيات من ضمنها تقنية الحوسبة في وقت الاختبار (Test-Time Computing) التي تشير إلى مجموعة من التقنيات الحاسوبية المتقدمة التي تُطبق في أثناء مرحلة الاستدلال في نماذج التعلم الآلي، وخاصة في نماذج اللغة الكبيرة، من خلال تحسين استخدام الموارد الحاسوبية لتحسين الأداء في مهام التفكير المنطقي والمطالبات المعقدة الأخرى.

على سبيل المثال، بدلاً من اختيار إجابة واحدة على الفور، يمكن للنموذج إنشاء احتمالات متعددة وتقييمها في الوقت الفعلي واختيار أفضل احتمال للمضي قدماً، وبهذه الطريقة يمكن للنموذج تكريس المزيد من قوة المعالجة للمهام الصعبة مثل الرياضيات أو مشكلات إنشاء الأكواد البرمجية أو العمليات المعقدة التي تتطلب تفكيراً شبيهاً بالإنسان عند اتخاذ القرار.

وقد بدأ أول هذه النماذج بالظهور ممثلاً في نموذج أوبن أيه آي أو ون (OpenAI o1) الذي يمكنه حل المشكلات بطرق متعددة الخطوات، على غرار ميزة التفكير الموجودة عند البشر. وفي الوقت نفسه، يعمل الباحثون في مختبرات شركات الذكاء الاصطناعي الكبرى الأخرى مثل أنثروبيك وإكس أيه آي وجوجل ديب مايند على تطوير نسخهم الخاصة من هذه التقنية.

كما بدأت شركات الذكاء الاصطناعي التركيز على طريقة أخرى لتدريب نماذجها، وهي استخدام البيانات الاصطناعية (Synthetic Data) التي أُنشئت بواسطة نماذج أخرى، في محاولة لتجاوز خطر نفاد البيانات الوشيك، بينما يبحث علماء آخرون في توسيع نطاق نماذج الذكاء الاصطناعي المستقبلية بناءً على التحسينات في قدرات التفكير بدلاً من المعرفة التدريبية الجديدة.

علاوة على ذلك، يبحث باحثون آخرون أيضاً فيما إذا كانت عملية تقطير المعرفة (knowledge distillation) يمكن أن تساعد على تدريب نماذج الذكاء الاصطناعي التوليدي بمجموعة أكثر دقة من المعلومات العالية الجودة، ولكن بحسب المراقبين فإن الاختراق الحقيقي في حل مشكلة نقص بيانات التدريب عالية الجودة يأتي من خلال التخصيص.

وهو مفهوم يعمل على تدريب نماذج الذكاء الاصطناعي على بيانات متخصصة أكثر لبيئة عمل محددة. على سبيل المثال، يمكن تدريب النماذج على البيانات الطبية بغرض نشرها في البيئات الطبية فقط لا غير، وقد أظهرت شركة مايكروسوفت نجاحاً في هذا المسعى لأن عملية التخصيص لا تتطلب خبرة عميقة في التعلم الآلي، حيث يمكن للمستخدمين بسهولة تحرير النصوص التي أُنشئت بواسطة النموذج أو تحميل ملفات نصية تحتوي على مفردات أو سياق مناسبين لتحسين أداء النموذج.

بالإضافة إلى ذلك، فإن التحسين المستمر هو ما يُميّز هذه النماذج، لأنها تتعلم من تفاعلات المستخدم ما يسمح لها بتحسين مخرجاتها بمرور الوقت، حيث تساعد عملية التعلم التكرارية في الحفاظ على الدقة العالية والملاءمة في المخرجات الناتجة، وهو ما يُعدّ بحسب المراقبين الحل الأمثل لحل مشكلة نقص بيانات التدريب، وفي الوقت نفسه يؤدي إلى تطوير نماذج أكثر كفاءة تُلبي كل قطاع أو صناعة على حدة، بدلاً من نماذج شاملة قد تؤدي إلى تدهور المعرفة البشرية لا تعزيزها.