أتاح لنا الذكاء الاصطناعي تحقيق إنجازات غير مسبوقة في اكتشاف الأدوية والروبوتات، كما أنه في طور إحداث ثورة جذرية في طريقة تفاعلنا مع الآلات ومع الويب، تكمن المشكلة الوحيدة في أننا لا نعرف كيف يعمل بالضبط، أو كيف يحقق هذه النتائج الجيدة للغاية. وعلى الرغم من أنه لدينا تصور جيد إلى حد ما، فإن التفاصيل متشابكة ومعقدة للغاية بحيث يصعب علينا تحليلها. وهذه مشكلة: فقد تؤدي بنا إلى استخدام نظام ذكاء اصطناعي في مجال حساس للغاية، مثل الطب، دون أن نفهم أن آلياته قد تنطوي على عيوب خطيرة.
القدرة على تفسير الآليات
ففي شركة جوجل ديب مايند (Google DeepMind)، يعكف فريق على دراسة جانب يحمل اسم "القدرة على تفسير الآليات" (mechanistic interpretability)، حيث يعمل على تطوير أساليب جديدة تتيح لنا الاطلاع على الآليات الداخلية لعمل الذكاء الاصطناعي. وفي أواخر شهر يوليو/تموز، أطلق هذا الفريق أداة "جيما سكوب" (Gemma Scope) التي تساعد الباحثين على فهم ما يحدث عندما يعمل نظام الذكاء الاصطناعي على توليد المخرجات. يأمل الفريق بأن تحسين فهمنا لما يحدث داخل نموذج الذكاء الاصطناعي سيُتيح لنا التحكم في مخرجاته بدرجة أعلى من الفاعلية، ما يؤدي إلى تصميم أنظمة ذكاء اصطناعي أفضل في المستقبل.
يقول مدير فريق القدرة على تفسير الآليات في جوجل ديب مايند، نيل نادا: "أريد أن أتمكن من رؤية ما يحدث داخل النموذج، ومعرفة إن كان يخدعني. ويبدو أن القدرة على قراءة عقل النموذج يمكن أن تساعد على تحقيق هذا الهدف".
تمثّل القدرة على تفسير الآليات، المعروفة أيضاً بالاسم المختصر "ميك إنترب" (mech interp)، حقلاً بحثياً جديداً يهدف إلى فهم آليات العمل الفعلية للشبكات العصبونية. حالياً، يمكن أن نلخص آلية العمل الأساسية بأننا نلقم النموذج بكميات ضخمة من البيانات، ثم نحصل في نهاية عملية التدريب على مجموعة من الأوزان الخاصة بالنموذج. هذه الأوزان هي المُعامِلات (parameters) التي تحدد كيفية اتخاذ النموذج للقرارات. ولدينا تصور عام حول ما يحدث بين المدخلات وأوزان النموذج: من الناحية الجوهرية، يعمل الذكاء الاصطناعي على كشف الأنماط الكامنة في البيانات، ويتوصل إلى استنتاجاته بناء على هذه الأنماط، لكن هذه الأنماط قد تكون معقدة للغاية، وغالباً ما يستعصي على البشر فهمها.
يمكن تشبيه العملية بمعلم يراجع إجابات أحد الطلاب على مسألة رياضية معقدة في اختبار معين. فقد كتب الطالب -وهو الذكاء الاصطناعي في هذه الحالة- الإجابة الصحيحة، غير أن طريقة الحل التي اتبعها تبدو أشبه بكتلة من الخطوط المتعرجة والمتداخلة. يفترض هذا المثال أن الذكاء الاصطناعي يتوصل إلى الإجابة الصحيحة على الدوام، غير أن هذا ليس صحيحاً دائماً، فمن المحتمل أن يكتشف الطالب الذي يعمل بالذكاء الاصطناعي نمطاً غير مهم ويفترض أنه صحيح. على سبيل المثال، يمكن أن يعطيك بعض أنظمة الذكاء الاصطناعي الحالية إجابة تقول إن 9.11 أكبر من 9.8. بدأت الأساليب المختلفة التي جرى تطويرها في مجال القدرة على تفسير الآليات تلقي القليل من الضوء على المجريات المحتملة لما يحدث، في محاولة جادة لفهم محتوى تلك الخطوط المتعرجة بصورة أساسية.
لماذا يجب معرفة آلية عمل الذكاء الاصطناعي؟
يقول نادا: "أحد الأهداف الرئيسية للقدرة على تفسير الآليات هو محاولة تطبيق الهندسة العكسية على الخوارزميات الداخلية لتلك الأنظمة. فنحن نلقّم النموذج بأمر نصي، مثل "اكتب قصيدة"، ثم نجده يكتب بعض الأبيات التي تنتهي بقافية متناغمة. ما هي الخوارزمية التي استخدمها لهذا الغرض؟ هذا ما نرغب في فهمه".
عمدت ديب مايند إلى تشغيل أداة تحمل اسم "المرمز الآلي المتناثر" (sparse autoencoder) على كل طبقة من طبقات نموذجها للذكاء الاصطناعي "جيما" (Gemma) للعثور على سمات البيانات أو فئات منها التي تمثل مفهوماً أكبر. يمكن تشبيه المرمز الآلي المتناثر بمجهر ضوئي يكبر هذه الطبقات ويُتيح لك رؤية تفاصيلها. على سبيل المثال، إذا لقّمت جيما بأمر نصي للاستفسار عن كلب الشيواوا، فسوف يؤدي هذا إلى تفعيل سمة "الكلاب" وإبراز ما يعرفه النموذج عن "الكلاب". أمّا السبب الذي دعا إلى وصف المرمز بأنه "متناثر" فهو أنه يحد من عدد العصبونات المستخدمة، ما يدفع بصورة أساسية إلى تمثيل البيانات بأسلوب أكثر فاعلية وبدرجة أعلى من التعميم.
الجانب الصعب في عمل المرمزات الآلية المتناثرة هو تحديد مستوى الدقة المطلوب في مراقبة عمل العصبونات. يمكن توضيح هذه النقطة من خلال مثال المجهر الضوئي. فالمجهر الضوئي يُتيح الوصول إلى درجة عالية للغاية من التكبير، غير أن فهم الصورة الناتجة قد يكون مستحيلاً بالنسبة إلى البشر. أمّا عند المبالغة في تصغير نسبة التكبير، فقد نحد من قدرتنا على رؤية الأشياء المثيرة للاهتمام واكتشاف تفاصيلها.
اقرأ أيضاً: جوجل ديب مايند ترغب في وضع تعريفها الخاص للذكاء الاصطناعي العام
حلت ديب مايند هذه المشكلة من خلال تشغيل مرمزات آلية متناثرة بنسب تكبير مختلفة، لتغيير عدد السمات التي يريدون من المرمز الآلي أن يعثر عليها. لم يكن هدف الباحثين في ديب مايند إجراء تحليل شامل للنتائج بأنفسهم. فنموذج جيما والمرمزات الآلية أنظمة مفتوحة المصدر، لذا كان الهدف من هذا المشروع هو دفع الباحثين المهتمين بهذه المسألة إلى دراسة ما اكتشفته المرمزات الآلية المتناثرة، على أمل التوصل إلى رؤى جديدة حول المنطق الداخلي للنموذج. بما أن ديب مايند عمدت إلى تشغيل المرمزات الآلية على كل طبقة من طبقات نموذجها، فقد كان كل باحث قادراً على رسم مسار الانتقال من المدخلات إلى المخرجات بمستوى غير مسبوق من الدقة والتفاصيل.
يقول الباحث في شركة أنثروبيك (Anthropic)، جوش باتسون: "هذا إنجاز رائع حقاً بالنسبة إلى الباحثين في مجال القدرة على تفسير الآليات. إن فتح المجال أمام الجميع لدراسة هذا النموذج المفتوح المصدر سيؤدي إلى إجراء مجموعة من الأبحاث في مجال القدرة على تفسير الآليات بالاعتماد على هذه المرمزات الآلية المتناثرة. وسيؤدي إلى تخفيف العوائق أمام اقتحام الناس هذا المجال للتعلم من هذه الطرق".
جيما سكوب
في شهر يوليو/تموز، عقدت المنصة المخصصة لتسريع الأبحاث في مجال القدرة على تفسير الآليات نيورونبيديا (Neuronpedia) شراكة مع ديب مايند لبناء نسخة تجريبية من جيما سكوب يمكن إجراء التجارب عليها حالياً. في هذه النسخة التجريبية، يمكنك اختبار أوامر نصية مختلفة ورؤية كيفية تحليل النموذج لأوامرك النصية والأجزاء التي تؤدي أوامرك النصية إلى تفعيلها. ويمكنك أيضاً أن تطبّق تعديلات على النموذج. على سبيل المثال، إذا رفعت مستوى تفعيل سمة الكلاب إلى درجة عالية للغاية، ووجّهت سؤالاً إلى النموذج حول رؤساء الولايات المتحدة، فقد يجد جيما وسيلة ما لإقحام معلومات عشوائية حول الكلاب في الإجابة، أو قد يرد عليك النموذج بالنباح ببساطة.
من الصفات المثيرة للاهتمام للمرمزات الآلية المتناثرة هو أنها تعمل دون إشراف، أي أنها تكتشف السمات بمفردها. وهو ما يؤدي إلى اكتشافات مفاجئة حول كيفية تحليل النموذج للمفاهيم البشرية. يقول كبير العلماء في نيورونبيديا، جوزيف بلوم: "السمة المفضلة لدي هي سمة المهانة. ويبدو أنها تظهر في حالات الانتقاد السلبي للنصوص والأفلام، وهي مثال رائع على كيفية تتبع النواحي التي ترتبط نوعاً ما بطبيعتنا البشرية".
يمكنك البحث عن المفاهيم على نيورونبيديا، وستحدد لك المنصة السمات التي يجري تفعيلها بناءً على رموز (tokens) معينة أو كلمات معينة، ومستوى تفعيل كل منها. يقول بلوم: "إذا قرأت النص ورأيت عناصر محددة باللون الأخضر، فهذا يعني أن النموذج يعتقد أن هذه العناصر هي الأكثر ارتباطاً بمفهوم المهانة. وتمثّل حالة إلقاء شخص ما للمواعظ على شخص آخر أوضح مثال على موقف يمكن تصنيفه على أنه مهانة".
تبيّن للباحثين أن تتبع بعض السمات أسهل من تتبع البعض الآخر. يقول مؤسس نيورونبيديا، جوني لين: "يمثّل الخداع أحد أهم السمات التي قد ترغب في كشفها في النموذج. غير أن إيجاد هذه السمة ليس بهذه السهولة: فليست هناك سمة واضحة يجري تفعيلها عندما يكذب النموذج علينا. من خلال ما رأيته، لم نتمكن من اكتشاف الخداع وحظره".
يشبه بحث ديب مايند مشروعاً حاولت شركة ذكاء اصطناعي أخرى، وهي شركة أنثروبيك، تنفيذه في شهر مايو/أيار مع نموذجها غولدن غيت كلاود (Golden Gate Claude). فقد استخدمت المرمزات الآلية المتناثرة لاكتشاف الأجزاء التي يجري تفعيلها ضمن نموذجها المعروف باسم كلاود (Claude) عندما يخوض نقاشاً حول جسر غولدن غيت في مدينة سان فرانسيسكو. وبعد ذلك، عمدت الشركة إلى تضخيم التفعيلات المتعلقة بالجسر إلى مستوى مرتفع للغاية، إلى درجة أن كلاود فقد هويته بوصفه نموذج الذكاء الاصطناعي كلاود، حرفياً، واتخذ هوية جسر غولدن غيت، وأخذ يرد على الأوامر النصية بوصفه ذلك الجسر.
قد تبدو أبحاث القدرة على تفسير الآليات مجرد مشاريع طريفة ومثيرة للاستغراب، لكن هذه الأبحاث قد تكون مفيدة للغاية. يقول باتسون: "هذه السمات مفيدة للغاية بوصفها أداة تُتيح فهم الطريقة التي يتبعها النموذج في التعميم ومستوى التجريد في آليات عمله".
مقدمة إلى معرفة أسباب ارتكاب الذكاء الاصطناعي للأخطاء
على سبيل المثال، أجرى فريق بقيادة سامويل ماركس، الذي يعمل حالياً في أنثروبيك، تجربة استخدم فيها المرمزات الآلية المتناثرة لاكتشاف سمات أثبتت أن أحد النماذج كان يقرن اختصاصات معينة بجنس معين. وبعد ذلك، أبطل الفريق تفعيل هذه السمات المرتبطة بالجنس لتخفيف التحيز في النموذج. أجرى الفريق هذه التجربة على نموذج صغير للغاية، ولهذا ليس من الواضح إن كانت هذه النتائج ستنطبق أيضاً على نموذج أكبر بكثير.
يمكن لأبحاث القدرة على تفسير الآليات أن تقدّم لنا بعض المعلومات الوافية حول أسباب ارتكاب الذكاء الاصطناعي للأخطاء أيضاً. ففي حالة تأكيد أن الرقم 9.11 أكبر من الرقم 9.8 (خطأ)، تبين لباحثين من المختبر البحثي غير الربحي ترانسلوس (Transluce) أن هذا السؤال كان يتسبب بتفعيل أجزاء مرتبطة بنصوص الإنجيل وأحداث 11 سبتمبر/أيلول من نموذج الذكاء الاصطناعي. واستنتج الباحثون أن الذكاء الاصطناعي ربما فسّر الأرقام على أنها تواريخ، مؤكداً أن التاريخ اللاحق 11/9 أكبر من التاريخ 8/9. وفي الكثير من الكتب مثل النصوص الدينية، يأتي المقطع 9.11 بعد المقطع 9.8، وربما لهذا السبب يعتقد الذكاء الاصطناعي أن 9.11 أكبر من 9.8. بعد أن عرف الباحثون السبب الذي أدّى بالذكاء الاصطناعي إلى ارتكاب هذا الخطأ، خفّضوا مستوى التفعيل المرتبط بالنصوص الدينية وأحداث 11 سبتمبر/أيلول، ما أدّى إلى الحصول على إجابة صحيحة عندما أعادوا توجيه السؤال إلى النموذج إن كان 9.11 أكبر من 9.8.
ثمة تطبيقات محتملة أخرى أيضاً. حالياً، ثمة أوامر نصية مدمجة على مستوى النظام ضمن النماذج اللغوية الكبيرة للتعامل مع مواقف معينة، مثل المستخدمين الذين يسألون عن كيفية صنع قنبلة. عندما توجّه سؤالاً إلى تشات جي بي تي، فإن النموذج يتلقى أولاً أمراً نصياً من أوبن أيه آي (OpenAI) بصورة سرية للامتناع عن إخبارك بكيفية صنع قنبلة أو تنفيذ أشياء شريرة أخرى. غير أنه يمكن للمستخدمين أن يكسروا حماية نماذج الذكاء الاصطناعي والالتفاف حول قيودها بسهولة، من خلال استخدام أوامر نصية ذكية.
اقرأ أيضاً: لماذا تراهن الشركات على وكلاء الذكاء الاصطناعي في السنوات القادمة؟
وإذا تمكن مبتكرو النماذج من معرفة العُقد التي تشكّل المعرفة المتعلقة بتصنيع القنابل ضمن نظام الذكاء الاصطناعي، فيمكنهم نظرياً إيقاف عمل هذه العقد بصورة دائمة. وعندها، حتى أذكى الأوامر النصية لن تتوصل إلى إجابة حول كيفية تصنيع قنبلة، لأن نموذج الذكاء الاصطناعي لن يكون لديه أي معلومات حول كيفية تصنيع قنبلة في نظامه.
من السهل تصور هذا النوع من التفصيل الموضعي والتحكم الدقيق، لكن من الصعب للغاية تحقيقه في ظل ما لدينا اليوم من القدرة على تفسير الآليات.
يقول لين: "إن أحد أوجه القصور اليوم هو أن التوجيه [التأثير في النموذج عن طريق ضبط معاملاته] ليس متاحاً بصورة فعّالة إلى هذا الحد، ولهذا فإن محاولة توجيه النموذج نحو تخفيف العنف، سينتهي به المطاف إلى إحداث خلل كامل في معرفته حول الفنون القتالية. ثمة الكثير من التحسينات التي يتعين إنجازها لأغراض التوجيه". إن المعرفة المتعلقة بموضوع "صُنع القنابل"، على سبيل المثال، لا يمكن التعامل معها على أنها مفتاح تشغيل يمكن تفعيله أو إيقافه ببساطة ضمن نموذج الذكاء الاصطناعي. من المرجّح أنها متداخلة مع أجزاء متعددة من النموذج، وإيقاف عملها من المحتمل أن يؤدي إلى تقييد معرفة نظام الذكاء الاصطناعي المتعلقة بالكيمياء. إن أي تعديل قد يكون له نتائج مفيدة، لكنه قد يتسبب بالتضحية بأشياء مهمة للغاية أيضاً.
في نهاية المطاف، إذا تمكنا من التوغل عميقاً في "عقل" الذكاء الاصطناعي وإمعان النظر فيه بصورة أوضح، فإن ديب مايند وغيرها من الشركات تأمل في أن تمثّل القدرة على تفسير الآليات مساراً معقولاً نحو تحقيق "الانضباط" (alignment)، وهي عملية التأكد من أن الذكاء الاصطناعي ينفذ ما نطلب منه بالفعل.