نماذج ذكاء اصطناعي مصغّرة قد تغير وجه التطبيقات على هاتفك الذكي

من يكترث بما يجري؟
طوّرت شركة جوجل في شهر أكتوبر من العام الماضي نموذجاً لغوياً يُسمى بيرت، حيث نجح في اجتياز اختبار معياري لفهم القراءة تم اعتماده منذ فترة طويلة في هذا المجال. حيث ضم الإصدار الأكبر حجماً منه 340 مليوناً من الثوابت الوسيطة، مما أدى إلى استهلاكه من الطاقة الكهربائية كميةً تكفي لإنارة منزلٍ أميركي لمدة 50 يوماً، وذلك عند تدريبه مرةً واحدة فقط.

وبعد أربعة أشهر، تخطّت شركة أوبن إيه آي ذلك النموذج عندما قامت بإطلاق نموذجها المُسمى جي بي تي-2. وقد أظهر هذا النموذج براعةً مذهلة في إنشاء نصوص نثرية مقنعة؛ حيث استخدم 1.5 مليار ثابت وسيطي. أما الآن فقد قامت شركة إنفيديا بتطوير أحدث وأكبر نموذج لها، والمُسمّى ميجاترون إل إم، حيث يضم 8.3 مليار من الثوابت الوسيطية. (هذا صحيح؛ بدأت الأمور تخرج عن السيطرة!).

كلما ازداد الحجم، ازداد الأمر سوءاً
بدأ باحثو الذكاء الاصطناعى يقلقون من عواقب هذه النزعة في تطوير النماذج، حيث أظهر مجموعة من الباحثين في جامعة ماساتشوستس، أمهيرست، في يونيو الماضي العواقبَ البيئيّة الناجمة عن تطوير نماذج تمتلك حجوماً هائلة بهذا القدر. كما قام الباحثون بحساب كميات الانبعاثات الكربونية الناجمة عن تدريب بيرت، ووجدوا أنها تُقارب ما ينبعث عن رحلة جوية بين نيويورك وسان فرانسيسكو ذهاباً وإياباً معاً. وإذا ما استقرأنا هذه المقادير، فإن الانبعاثات الناجمة عن جي بي تي-2 و ميجاترون إل إم ستكون أكبر بكثير.

كما أن هذه النزعة في التطوير قد تسرّع من حصر أبحاث الذكاء الاصطناعي في مجموعة صغيرة من الشركات التكنولوجية العملاقة؛ حيث لا تمتلك المُختبرات التي تُعاني من نقص في الموارد في الأوساط الأكاديمية أو البلدان ذات الموارد المحدودة الوسائلَ اللازمة لاستخدام أو تطوير مثل هذه النماذج المُكلفة من الناحية الحسابية.

ردات فعل ناجحة
استجابةً لما سلف، بدأ العديد من الباحثين يركزون على تقليص حجوم النماذج الموجودة دون الإخلال في قدراتها. والآن، وخلال يومين متتالين، قَدَّمت ورقتان بحثيتان جديدتان تجربتين ناجحتين على النسخة الأصغر من بيرت،والتي تحوي 100 مليون من الثوابت الوسيطية.

وتُقدِّم الورقة البحثية الأولى -التي أنجزها باحثان من شركة هواوي- نموذجاً يُسمى بيرت الصغير "تايني بيرت" بحجم يبلغ أقل من سُبع حجم النموذج الأصلي، وأسرع منه بنحو 10 مرات تقريباً، كما أن قدرته على الفهم اللغوي تقارب قدرة بيرت الأصلي. أما الورقة البحثية الثانية -والتي أنجزها باحثان من شركة جوجل- فهي تُقدِّم نموذجاً أصغر بأكثر من 60 مرة عن حجم النموذج الأصليّ، ولكن قدرته على الفهم اللغويّ أسوأ بقليل من نموذج هواوي.

كيف نجحوا في ذلك؟
تستخدم كلتا الورقتين البحثيتين نسخاً مختلفةً من التقنية الشائعة لضغط النماذج والمعروفة باسم "تقطير المعرفة Knowledge distillation"؛ حيث تنطوي هذه التقنية على استخدام نموذج الذكاء الاصطناعى الكبير الذي نريد تصغيره، والذي سنسميه اصطلاحاً "المُعلّم" لتدريب نموذج أصغر بكثير نسميه "التلميذ" ليصبح على شاكلته. وللقيام بذلك، يُمكننا تلقيم كلا النموذجين بنفس المُدخلات، ثم نقوم بتعديل النموذج التلميذ حتى تتطابق مُخرجاته مع مُخرجات النموذج المُعلّم.

خارج المختبر
بالإضافة إلى تحسين الوصول إلى أحدث تقنيات الذكاء الاصطناعي، فإن هذه النماذج الصغيرة ستساعد في توفير أحدث تطورات الذكاء الاصطناعي في الأجهزة التجاريّة. فهي ستتيح تجنّب إرسال بيانات المستهلكين إلى وسائط التخزين السحابي، مما يُحسّن مستوى كل من السرعة والخصوصية.

أما بالنسبة لنماذج اللغات الطبيعية على وجه الخصوص، فإن زيادة القدرة والفعالية على التنبؤ بالنصوص وتوليد اللغات، يمكنها أن تحسن أداء عدد لا يحصى من التطبيقات، مثل ميزة الإكمال التلقائي على هاتفك الذكي، والمُساعِدات الصوتية مثل أليكسا وجوجل أسيستانت.