تخيل أن الذكاء الاصطناعي يشبه النفط من زاويةٍ ما! والسبب هو التعلم العميق

غالباً ما تُقارن صناعة الذكاء الاصطناعي بصناعة النفط، فما أن يتم استخراج البيانات وتدقيقها، فإنها تصبح -شأنها شأن النفط- سلعة تُدرّ أرباحاً طائلة. ويبدو أن التشبيه أصبح الآن أعمق من ذي قبل؛ حيث إن عملية التعلم العميق تؤثر على البيئة بشكل واضح، شأنها شأن أثر الوقود الأحفوري.

في بحث جديد، أجرى باحثون في جامعة ماساتشوستس أمهيرست تقييماً لدورة حياة تدريب عدة نماذج كبيرة للذكاء الاصطناعي، ووجدوا أن هذه العملية يمكن أن تصدر أكثر من 283,000 كيلوجرام من ثنائي أكسيد الكربون المكافئ، أي ما يعادل تقريباً خمسة أضعاف الانبعاثات التي تطلقها سيارة أميركية متوسطة مدى حياتها، بما في ذلك تصنيع السيارة نفسها.

مقادير شائعة للأثر الكربوني مقدرة بالكيلوجرام من ثنائي أكسيد الكربون المكافئ:

الشكل البياني: إم آي تي تكنولوجي ريفيو. المصدر: ستروبيل وآخرون. تم بناء الشكل باستخدام داتارابر.

إنه تكميم مثير للقلق لأمرٍ كان يثير شكوك باحثي الذكاء الاصطناعي منذ فترة من الزمن. يقول كارلوس جوميز رودريجز، وهو عالم حاسوب في جامعة آكورونا بإسبانيا، وغير مشارك في البحث: "من الممكن أن معظمنا فكر في هذا الأمر بشكل مجرد وغير محدد، ولكن الأرقام تبيِّن الحجمَ الحقيقي للمشكلة. وأثناء مناقشة هذه المسائل لم يعتقد الباحثون -بمن فيهم أنا شخصياً- أن الأثر على البيئة كان كبيراً لهذه الدرجة".

الأثر الكربوني لمعالجة اللغة الطبيعية

يدرس البحث بشكل خاص عملية تدريب نماذج معالجة اللغات الطبيعية (NLP)، وهو مجال فرعي من الذكاء الاصطناعي يركِّز على تعليم الآلات كيفية التعامل مع اللغة البشرية. وفي السنتين الماضيتين، حقَّقت أوساط معالجة اللغة الطبيعية عدة إنجازات هامة في أداء الترجمة الآلية، واستكمال الجمل، وغيرها من المهام المعيارية. وعلى سبيل المثال، فإن النموذج الشهير جي بي تي 2 من أوبن إيه آي وصل إلى مستوى ممتاز في كتابة المقالات الإخبارية المزيفة بشكل مقنع.

غير أن هذه التطورات تطلبت تدريب نماذج أكبر على مجموعات بيانات أضخم مؤلفة من جمل مأخوذة من الإنترنت. وهذه الطريقة تتطلب قدرات حاسوبية ضخمة، واستهلاك مقادير هائلة من الطاقة.

وقد درس البحث 4 نماذج في هذا المجال كانت مسؤولة عن تحقيق أكبر القفزات في الأداء، وهي: شبكة التحويل العصبونية، وإلمو، وبيرت، وجي بي تي 2. وقد قام الباحثون بتدريب كل منها على وحدة معالجة رسومية ليوم واحد بهدف قياس استهلاك الطاقة، ومن ثم استخدموا عدد ساعات التدريب المدرج في البحث الأصلي المتعلق بالنموذج لحساب إجمالي استهلاك الطاقة خلال عملية التدريب الكاملة، وبعد ذلك قاموا بتحويل هذا الرقم إلى وزن ثنائي أكسيد الكربون المكافئ بناء على تركيبة الطاقة في الولايات المتحدة، التي تقارب تركيبة الطاقة المستخدمة من قبل أمازون إيه دبليو إس، أكبر مزود للخدمات السحابية.

التكاليف التقديرية لتدريب نموذج معين:

ملاحظة: نظراً لضعف استهلاك الطاقة لتجهيزات تدريب جي بي تي 2، لم يتمكن الباحثون من حساب الأثر الكربوني.

الجدول: إم آي تي تكنولوجي ريفيو. المصدر: ستروبل وآخرون، تم بناء الجدول باستخدام داتا رابر

وجد الباحثون أن التكاليف الحاسوبية والبيئية للتدريب كانت تتزايد بشكل طرديٍّ مع حجم النموذج، ومن ثم ارتفعت بحدة شديدة عند استخدام خطوات معايرة إضافية لزيادة الدقة النهائية للنموذج. وقد وجد الباحثون على وجه الخصوص أن عملية المعايرة المعروفة باسم: بحث الهيكلية العصبونية -والتي تحاول أمثَلة النموذج بتعديل تصميم الشبكة العصبونية تدريجياً عبر عملية تجربة وخطأ مكثفة- قد أضافت تكاليف كبيرة للغاية إلى عملية التدريب مقابل زيادة بسيطة في الأداء. وبدونها، فإن الأثر الكربوني لأكثر النماذج تكلفة، وهو نموذج بيرت، يبلغ تقريباً 652 كيلوجراماً من ثنائي أكسيد الكربون المكافئ، أي ما يقارب رحلة طيران ذهاباً وإياباً عبر أميركا لشخص واحد.

إضافة إلى ذلك، فقد لاحظ الباحثون أن الأرقام يجب أن يُنظر إليها فقط على أنها مبدأ للقياس. تقول إيما ستروبل، وهي مرشحة للدكتوراه في جامعة ماساتشوستس أمهيرست والمؤلفة الأساسية للبحث: "إن تدريب نموذج واحد هو أقل مقدار ممكن من العمل". أما من الناحية العملية، فمن المرجح أن يقوم باحثو الذكاء الاصطناعي بتطوير نموذج آخر من الصفر أو تكييف نموذج موجود مع مجموعة بيانات جديدة، ويتطلب أيٌّ من الأمرين تكرار عمليات التدريب والمعايرة مرات عديدة.

ولفهم الهيكلية الكاملة لتطوير النماذج من ناحية الأثر الكربوني بشكل أفضل، استخدمت ستروبل وزملاؤها نموذجاً قاموا بتصميمه في بحث سابق ليكون دراسة حالة. وقد وجدوا أن عملية بناء نموذج نهائي جدير بالنشر كبحث علمي واختباره تتطلب تدريب 4,789 نموذج على مدى ستة أشهر، وبتحويل هذا المقدار إلى ما يكافئه من ثنائي أكسيد الكربون، فهو يتسبب في إصدار أكثر من 35000 كيلوجرام، ومن المرجح أن هذه المقادير تمثِّل بشكل تقريبي أيَّ عمل نموذجي في مجال الذكاء الاصطناعي.

وتحمل هذه الأرقام أهمية بالغة للغاية، خصوصاً إذا أخذنا بعين الاعتبار التوجهات الحالية في أبحاث الذكاء الاصطناعي. يقول جوميز رودريجز: "بشكل عام، فإن أغلبية الأبحاث الجديدة في مجال الذكاء الاصطناعي تتجاهل مسألة الفعالية، وذلك بسبب فائدة الشبكات فائقة الضخامة في العديد من المهام، كما أن الشركات والمؤسسات تمتلك الكثير من الموارد الحاسوبية التي يمكن أن تستغلها لمزيد من الأفضلية التنافسية. وهذا النوع من التحليل ضروري لزيادة الوعي حول كيفية استخدام الموارد، ومن المؤكد أنه سيثير بعض الجدل".

ويوافق سيفا ريدي -وهو باحث في مرحلة ما بعد الدكتوراه في جامعة ستانفورد، ولم يشارك في البحث- على هذا الرأي، قائلاً: "من المرجح أن معظمنا لم يفهم الحجم الحقيقي للمشكلة قبل رؤية هذه المقارنات".

خصخصة الذكاء الاصطناعي

تُبيِّن النتائج مشكلة متنامية أخرى في الذكاء الاصطناعي أيضاً؛ حيث إن الحجم المحض للموارد المطلوبة حالياً للحصول على نتائج جديرة بالنشر جعل من الصعب على الأكاديميين الاستمرار في المساهمة في البحث. تقول ستروبل: "يستحيل على الأكاديميين التعامل مع هذا التوجه نحو تدريب النماذج الضخمة على مقادير هائلة من البيانات، خصوصاً طلاب الدراسات العليا؛ لأننا لا نمتلك الموارد الحاسوبية المطلوبة. ولهذا فإن هناك مشكلة في عدم المساواة بين الباحثين الأكاديميين وباحثي الشركات في إمكانية الوصول إلى الموارد".

وتأمل ستروبل والمؤلفون الآخرون في أن أقرانهم سيأخذون نتائج البحث بجدية، ويساعدون على تعزيز المساواة في هذا المجال بالاستثمار في تطوير عتاد صلب وخوارزميات أكثر فعالية. ويوافقها ريدي في هذا الرأي قائلاً: "يمكن للعقول البشرية أن تفعل أشياء مذهلة دون استهلاك الكثير من الطاقة. والسؤال الهام هنا هو كيفية بناء آلات تقوم بشيء مشابه".