قد يكشف لنا التعلم العميق عن السبب وراء سير العالم بالكيفية التي يسير بها

خلال الأسبوع الأول من مايو، اجتمعت الأوساط البحثية في مجال الذكاء الاصطناعي في نيو أورليانز لحضور المؤتمر الدولي لتمثيل التعلم (المعروف باسم آي كلير ICLR)، وهو أحد المؤتمرات الرئيسية السنوية في هذا المجال. كان هناك أكثر من 3,000 مشارك، وأكثر من 1,500 ورقة بحثية مقدمة، مما يجعله واحداً من أهم المنتديات لتبادل الأفكار الجديدة في هذا المجال.

وتتركز الجلسات الحوارية والأوراق البحثية بشكل كبير هذا العام على معالجة 4 تحديات رئيسية في التعلم العميق، هي: العدالة، والأمن، وقابلية التعميم، والعلاقة السببية. وإن كنت تتابع الموضوع مع تغطية إم آي تي تكنولوجي ريفيو، فستتعرف على التحديات الثلاثة الأولى.

لقد تحدثنا من قبل كيف أن خوارزميات التعلم الآلي يعتورها التحيز بحالتها الراهنة، ومعرضة للهجمات العدائية، ولديها قدرة محدودة للغاية على تعميم الأنماط التي تجدها في مجموعات بيانات التدريب الخاصة بتطبيقات متعددة. والآن أصبح المجتمع البحثي مشغولاً بمحاولة جعل هذه التكنولوجيا متطورة بدرجة كافية للتخفيف من نقاط الضعف هذه.

وما لم نتحدث عنه كثيراً هو التحدي الأخير: السببية، وهو أمر حير الباحثين لبعض الوقت. فالتعلم الآلي ممتاز في العثور على الترابطات في البيانات، ولكن هل يمكنه أن يكتشف العلاقة السببية؟ سيكون إنجاز كهذا علامة فارقة؛ فإذا كان بمقدور الخوارزميات أن تساعدنا في تسليط الضوء على أسباب وتأثيرات (أو نتائج) الظواهر المختلفة في النظم المعقدة، فسوف تعمّق من فهمنا للعالم من حولنا، وسيطلق العنان لأدوات أكثر فعالية للتأثير عليه.

في 6 مايو، أول أيام المؤتمر، وفي غرفة مزدحمة، قام الباحث البارز ليون بوتو، الذي يعمل الآن في وحدة أبحاث الذكاء الاصطناعي في فيسبوك وجامعة نيويورك، بعرض إطار عمل جديد يعمل عليه برفقة معاونيه لمعرفة كيفية تحقيق ذلك. وإليكم فيما يلي ملخص الجلسة الحوارية التي أجراها، كما يمكنكم مشاهدتها بالكامل أدناه، بدءاً من اللحظة الزمنية 12:00.

الفكرة رقم 1

عينة صور من مجموعة البيانات MNIST.
مصدر الصورة: ويكيبيديا

لنبدأ مع أول فكرة مهمة لبوتو وفريقه: طريقة جديدة للتفكير بشأن السببية. لِنقُل إنك تريد تطوير نظام للرؤية الحاسوبية يمكنه التعرف على الأرقام المكتوبة بخط اليد. (إليك هذه المشكلة التمهيدية التقليدية التي تستخدم مجموعة البيانات MNIST المتوافرة على نطاق واسع كما هو موضح أعلاه في الصورة).

من المفترض أن تقوم بتدريب شبكة عصبونية على الكثير من الصور التي تضم أرقاماً مكتوبة بخط اليد، حيث تم تصنيف كل منها بالرقم الذي تمثله، وينتهي الأمر بنظام مقبول للغاية للتعرف على صور جديدة لم يسبق له أن تعامل معها من قبل.

ولكن لنفترض أن مجموعة بيانات التدريب لديك قد تم تعديلها قليلاً، وأن كل واحد من الأرقام المكتوبة بخط اليد لديه لون أيضاً -الأحمر أو الأخضر- مرتبط به. دع عنك الإنكار للحظة وتخيل أنك لا تعلم ما إذا كان لون الوسم أو شكله هو أفضل مؤشر على ماهية الرقم.

التعامل المعتاد اليوم هو أن تقوم ببساطة بوسم كل قطعة من بيانات التدريب بكلتا السمتين وتلقمها للشبكة العصبونية لكي تقرر.

عينات من مجموعة بيانات MNIST الملونة.
مصدر الصورة: ليون بوتو

في هذه المرحلة تصبح الأمور مثيرة للاهتمام، فمجموعة بيانات MNIST الملونة مضللة على نحو متعمد. وبالعودة إلى العالم الحقيقي، نحن نعلم أن ألوان الوسوم ليست مهمة على الإطلاق، ولكن في مجموعة البيانات هذه تحديداً، فإن اللون في الواقع مؤشر أقوى من الشكل على ماهية الرقم. وبالتالي تتعلم شبكتنا هذه استخدام اللون على أنه المؤشر الرئيسي.

ويبدو هذا جيداً عندما نستخدم الشبكة بعد ذلك للتعرف على الأرقام المكتوبة بخط اليد التي تتبع نفس أنماط التلوين، لكن أداء الشبكة سيكون فاشلاً تماماً عندما نعكس ألوان الأرقام.

(عندما قام بوتو ومعاونوه بتطبيق هذه التجربة الفكرية باستخدام بيانات تدريب حقيقية وشبكة عصبونية حقيقية، حققوا دقة تعرف بنسبة 84.3% في السيناريو الأول، ونسبة 10% في السيناريو الآخر حيث الألوان معكوسة).

بمعنى آخر: تمكنت الشبكة العصبونية من العثور على ما يسميه بوتو "ترابط زائف"، مما يجعلها عديمة الفائدة تماماً خارج السياق الضيق الذي تدربت فيه. من الناحية النظرية، إذا استطعت التخلص من جميع الارتباطات الزائفة في نموذج التعلم الآلي، فسيبقى لديك الترابطات "الثابتة" فقط، تلك التي تبقى سارية بصرف النظر عن السياق.

ويوضح بوتو أن هذه "الثابتية" (عدم التغير) ستسمح لك بدورها أن تفهم العلاقة السببية. إن كنت تعرف الخصائص الثابتة لنظام ما، وتعرف التدخل الذي تم إجراؤه على النظام، فينبغي لك أن تكون قادراً على استنتاج العواقب الناجمة عن هذا التدخل.

على سبيل المثال، إن كنت تعرف أن شكل الرقم المكتوب بخط اليد يفرض معناه، فيمكنك عندئذ استنتاج أن تغيير شكله (السبب) سوف يغير معناه (النتيجة). مثال آخر: إن كنت تعرف أن جميع الأجسام تخضع لقانون الجاذبية، فيمكنك الاستنتاج عندئذ أنه عندما تترك كرة ما (السبب)، فإنها ستسقط على الأرض (النتيجة).

ومن الواضح أن ما ذكرته يعد أمثلة بسيطة عن السبب والنتيجة بناء على الخصائص الثابتة التي نعرفها من قبل، ولكن فكر في الطريقة التي يمكننا بها تطبيق هذه الفكرة على أنظمة أكثر تعقيداً من النوع الذي لم نفهمه بعد.

ماذا لو تمكنا من إيجاد الخصائص الثابتة لأنظمتنا الاقتصادية -مثلاً- بحيث يمكننا فهم الآثار الناجمة عن تطبيق فكرة الدخل الأساسي الشامل؟ أو إيجاد الخصائص الثابتة للنظام المناخي للأرض، بحيث يمكننا تقييم الحيل المختلفة للهندسة المناخية؟

الفكرة رقم 2

إذن كيف نتخلص من هذه الارتباطات الزائفة؟ هذه هي الفكرة المهمة الثانية لفريق بوتو. في الممارسات الحالية المتبعة في التعلم الآلي، فإن الحدس الافتراضي يتمثل في جمع أكبر قدر ممكن من بيانات التمثيل وأكثرها تنوعاً في مجموعة تدريبية واحدة. ولكن بوتو يقول إن هذا الأسلوب يسبِّب الضرر.

إن البيانات المختلفة التي تصدر عن سياقات مختلفة -سواء تم جمعها في أوقات مختلفة، أو مواقع مختلفة، أو في ظل ظروف تجريبية مختلفة- ينبغي الإبقاء عليها ضمن مجموعات منفصلة بدلاً من أن تكون مختلطة أو موحدة. وعندما يتم دمجها -كما هي عليه الآن- فإن المعلومات المهمة المتعلقة بالسياق تتعرض للضياع، مما يؤدي إلى زيادة فرص ظهور ارتباطات زائفة بدرجة كبيرة.

وبوجود مجموعات بيانات متعددة بسياقات محددة، يكون تدريب الشبكة العصبونية مختلفاً تماماً. فلا يكفي للشبكة في هذه الحالة أن تعثر على الارتباطات التي تبقى سارية في مجموعة بيانات تدريبية متنوعة فحسب، بل يتوجب عليها العثور على الارتباطات الثابتة في كافة مجموعات البيانات المتنوعة. وإذا تم اختيار هذه المجموعات بذكاء من مجموعة كاملة من السياقات، فينبغي عندها للارتباطات النهائية أن تتطابق بشكل وثيق مع الخصائص الثابتة للحقائق الواقعية.

لذلك علينا أن نعود إلى مثال مجموعة بيانات MNIST الملونة البسيط مرة أخرى؛ فبالاعتماد على نظريتهم للعثور على خصائص ثابتة، أعاد بوتو ومعاونوه إجراء تجربتهم الأصلية. ولكنهم استخدموا هذه المرة مجموعتي بيانات MNIST ملونة، لكل منها أنماط لونية مختلفة.

ثم قاموا بعد ذلك بتدريب شبكتهم العصبونية لإيجاد الارتباطات التي تبقى محققة عبر كلا المجموعتين. وعندما اختبروا هذا النموذج المحسن على أرقام جديدة باستخدام أنماط الألوان نفسها والأنماط المعكوسة أيضاً، حقق دقة تعرّف بلغت 70% لكلا المجموعتين. وأثبتت النتائج أن الشبكة العصبونية قد تعلمت تجاهل اللون والتركيز على أشكال الوسوم فقط.

يقول بوتو إن عمل فريقه على هذه الأفكار لم يصل إلى مرحلة الإنجاز بعد، وسوف يستغرق المجتمع البحثي بعض الوقت لاختبار التقنيات على مسائل أكثر تعقيداً من الأرقام الملونة.

لكن إطار العمل يلمح إلى إمكانات التعلم العميق لمساعدتنا على فهم الأسباب الكامنة وراء حدوث الأشياء، وبالتالي منحنا المزيد من التحكم في مصيرنا.