هل يجب أن تكون نماذج الذكاء الاصطناعي كبيرة لتحقق أداءً جيداً؟

صمم باحثون في معهد آلين للذكاء الاصطناعي مجموعة مفتوحة المصدر من النماذج باسم "مولمو"، وتتميز بأداء ممتاز يضاهي النماذج الأضخم منها بكثير مع الاعتماد على جزء صغير من الموارد المخصصة لأحدث النماذج.

في أبحاث الذكاء الاصطناعي، ثمة قناعة سائدة بأنه كلما كان حجم النموذج أكبر كان ذلك أفضل، وهذه الفكرة مفادها أنه يمكن الحصول على نماذج أكثر قدرة من خلال زيادة كمية البيانات وتعزيز الإمكانات الحاسوبية والإكثار من المعامِلات (القيم الوسيطة). ظهر هذا التوجه أول مرة في ورقة بحثية تتسم بأهمية خاصة وتعود إلى عام 2017، حيث طرح باحثون من شركة جوجل بنية المحول (transformer) التي تمثل أساس طفرة النماذج اللغوية الحالية، والتي ساعدت على ترسيخ عقلية "زيادة الحجم كفيلة بحل كل شيء" في أوساط الذكاء الاصطناعي. حالياً، يبدو أن الشركات التكنولوجية الكبرى تخوض منافسة تتخذ من حجم النموذج معياراً يتفوق على أي معيار آخر.

حجم النموذج: المعيار الأول

تقول مديرة الذكاء الاصطناعي والمناخ في شركة الذكاء الاصطناعي الناشئة هاغينغ فيس (Hugging Face)، ساشا لوتشيوني: "لقد أصبح حجم النموذج المعيار الأول الذي يسأل عنه الجميع". تعمل الشركات التكنولوجية على إضافة المليارات من المعاملات إلى النماذج وحسب، وهو ما يحرم الشخص العادي من إمكانية تنزيل هذه النماذج وإجراء التجارب عليها، حتى لو كانت مفتوحة المصدر (ومعظمها ليس كذلك). تقول لوتشيوني إن نماذج الذكاء الاصطناعي الحالية "ضخمة للغاية" ببساطة.

يتسبب الحجم الضخم بظهور سلسلة من المشكلات مثل ممارسات جمع البيانات التي تؤدي إلى انتهاك الخصوصية والحقوق الفكرية، ووجود المواد التي تتضمن الاستغلال الجنسي للأطفال في مجموعات البيانات، كما وضحت لوتشيوني ومجموعة من زملائها في ورقة بحثية جديدة. علاوة على ذلك، فإن البصمة الكربونية للنماذج الأضخم أكبر بكثير، لأن تشغيلها يتطلب كميات أكبر من الطاقة.

تُضيف لوتشيوني قائلة إن زيادة الحجم يؤدي إلى مشكلة أخرى أيضاً وهي الزيادة الحادة في تركيز النفوذ لدى جهات محددة. يكلف تضخيم النماذج مبالغ مالية هائلة، كما أن الموارد المطلوبة لبناء نماذج كهذه وتشغيلها غير متاحة إلّا لنخبة الباحثين الذين يعملون في الشركات التكنولوجية الكبيرة.

تقول لوتشيوني: "ثمة عائق يعرقل التعامل مع الذكاء الاصطناعي، وهو ناجم عن مجموعة صغيرة للغاية من الشركات الثرية التي تتمتّع بنفوذ كبير، والتي تستخدم الذكاء الاصطناعي بوصفه جزءاً من منتجاتها الأساسية".

"مولمو" (Molmo): نماذج صغيرة مفتوحة المصدر تحقق أداءً جيداً

لكن ليس من الضروري أن يبقى الوضع على ما هو عليه، فقد نشرتُ مؤخراً مقالاً عن نموذج لغوي جديد متعدد الوسائط، وهو نموذج صغير الحجم لكنه يتميز بقدرات عالية. بنى باحثون في معهد آلين للذكاء الاصطناعي (Allen Institute for Artificial Intelligence)، أو اختصاراً أيه آي تو (Ai2)، مجموعة مفتوحة المصدر من النماذج باسم "مولمو" (Molmo)، وقد حققت هذه النماذج أداءً مثيراً للإعجاب بالاعتماد على جزء صغير من الموارد المستخدمة في بناء أحدث النماذج.

تزعم هذه المؤسسة أن أكبر نموذج لديها في مجموعة مولمو، وهو يحتوي على 72 مليار معامل، يتفوق في الأداء على نموذج جي بي تي 4 أو (GPT-4o) من شركة أوبن أيه آي (OpenAI)، الذي تشير التقديرات إلى أنه يحتوي على أكثر من تريليون معامل، وذلك في اختبارات تقيس مستوى قدرات مثل فهم الصور والأشكال البيانية والمستندات.

أيضاً، يقول أيه آي تو إن نموذجاً أصغر من مجموعة مولمو، وهو يحتوي على 7 مليارات معامل، يقارب أحدث نماذج أوبن أيه آي من حيث الأداء، وهو إنجاز يعزوه المعهد إلى طرائق أعلى فعالية بكثير لجمع البيانات والتدريب. يمكنك أن تقرأ المزيد عنه هنا. تبين نماذج مولمو أننا لا نحتاج بالضرورة إلى مجموعات بيانات هائلة أو نماذج ضخمة يتطلب تدريبها مقادير هائلة من الأموال والطاقة.

لقد كان التحرر من قيود عقلية "زيادة الحجم كفيلة بحل كل شيء" أحد أكبر التحديات التي واجهها الباحثون الذين بنوا مولمو، كما يقول أحد كبار مدراء الأبحاث في أيه آي تو، آني كيمبافي.

ويقول: "عندما باشرنا العمل على هذا المشروع، وجدنا أنه يجب أن نفكر بأسلوب غير تقليدي على الإطلاق، فلا بُدّ من وجود طريقة أفضل لتدريب هذه النماذج". أراد أفراد الفريق أن يثبتوا أن النماذج المفتوحة تستطيع أن تقدّم أداءُ يُضاهي أداء النماذج المغلقة المملوكة للشركات، ولهذا كان يجب أن يبنوا نماذج مفتوحة ولا يكلف تدريبها الملايين من الدولارات.

القلة تؤدي إلى الوفرة والصِّغَر يؤدي إلى نتائج كبيرة حتى في نماذج الذكاء الاصطناعي

يقول كيمبافي إن مجموعة مولمو تبيّن أن "القلة تؤدي إلى الوفرة، والصِّغَر يؤدي إلى نتائج كبيرة، وأن النماذج المتاحة أمام الجميع تضاهي النماذج المغلقة غير المتاحة".

ثمة سبب وجيه آخر يدعونا إلى تصغير حجم النماذج. تقول لوتشيوني إن النماذج الأكبر عادة ما تكون قادرة على تنفيذ نطاق واسع من المهام إلى درجة تتجاوز الاحتياجات الفعلية للمستخدمين.

"في معظم الأحيان، لن تحتاج إلى نموذج يفعل كل شيء، بل ستحتاج إلى نموذج يؤدي مهمة محددة تريد منه أن ينفذها. ولهذا السبب، فإن النماذج الأكبر ليست أفضل بالضرورة"، على حد قول لوتشيوني.

بدلاً من ذلك، يجب أن نغيّر أسلوبنا في قياس أداء الذكاء الاصطناعي بحيث يركّز على الأشياء المهمة فعلياً، على حد قولها. ففي خوارزمية لكشف السرطان، على سبيل المثال، قد يكون من الأفضل أن نمنح الأولوية لعوامل مثل الدقة والخصوصية وموثوقية البيانات التي تدرب النموذج عليها، بدلاً من استخدام نموذج ينفذ أنواع المهام كلها وجرى تدريبه على بيانات من الإنترنت، على حد قول لوتشيوني.

لكن هذا سيتطلب مستوى أعلى من الشفافية، على نحو يتجاوز المعيار السائد حالياً في مجال الذكاء الاصطناعي، فالباحثون لا يعرفون حقاً كيف تعمل نماذجهم أو لماذا تعطي هذه النتيجة أو تلك، ولا يدركون حتى محتوى مجموعات البيانات التي يستخدمونها. أصبح تضخيم النماذج تقنية شائعة لأن الباحثين وجدوا أن حشو النماذج بالمزيد من الأشياء يؤدي إلى تحسين أدائها على ما يبدو. يجب على أوساط الباحثين والشركات تغيير الحوافز وتوجيهها نحو إلزام الشركات التكنولوجية بأن تكون أكثر حرصاً وشفافية فيما يتعلق بما تصبه في نماذجها، وأن تساعدنا على تحقيق نتائج أفضل بالاعتماد على موارد أقل.

تقول لوتشيوني: "لسنا في حاجة إلى أن نفترض أن نماذج الذكاء الاصطناعي صناديق عجائبية ستحل مشكلاتك جميعها".