يبدو أن جي بي تي-3 من أوبن إيه آي تفوق على غيره من نماذج الذكاء الاصطناعي حول العالم في قدرته على جذب مخيلة الجماهير؛ فهو قادر -بقليل من الإشراف- على إنتاج القصائد، والقصص القصيرة، والأغاني، كما أثبت قدرته على خداع البشر ودفعهم إلى الاعتقاد بأن نتاجه من صنع البشر. غير أن فصاحته ليست سوى حيلة حاذقة، ومن الخطأ الاعتقاد بأنها مكافئة للذكاء الحقيقي.
وعلى الرغم من ذلك، يعتقد الباحثون أن التقنيات المُستخدمة في بناء جي بي تي 3 تحمل السر نحو بناء ذكاء اصطناعي أكثر تطوراً. تم تدريب جي بي تي 3 باستخدام مقادير هائلة من البيانات النصية. ماذا لو استُخدمت نفس الطريقة مع البيانات النصية وبيانات الصور؟
قرر معهد آلين للذكاء الاصطناعي، إيه آي 2، تطبيق هذه الفكرة وتطويرها في بحث جديد. فقد قام الباحثون بتطوير نموذج نصي صُوَري جديد، يُعرف أيضاً باسم النموذج المرئي اللغوي، ويستطيع توليد الصور بناء على عبارة توضيحية قصيرة. وعلى الرغم من أن الصور تبدو مخيفة بعض الشيء ومشوهة، وأبعد ما يكون عن المزيفات العميقة شديدة الواقعية التي تولدها الشبكات التوليدية التنافسية، فإنها قد تبين وجود توجُّه واعد جديد لتحقيق ذكاء أكثر عمومية، وربما روبوتات أكثر ذكاء أيضاً.
ملء الفراغات
ينتمي جي بي تي 3 إلى مجموعة من النماذج المعروفة باسم: نماذج التحويل (transformers)، التي ازدادت شعبيتها مع نجاح نموذج بيرت من جوجل. فقبل بيرت، كانت النماذج اللغوية ضعيفة للغاية. وعلى الرغم من أن قدراتها التنبؤية كانت كافية لبعض التطبيقات المفيدة (مثل الإكمال التلقائي)، فإنها لم تكن كافية لتوليد جملة طويلة تتبع القواعد اللغوية والمنطق السليم.
ولكن هذا تغير مع بيرت، وذلك بفضل تقنية جديدة تحمل اسم “الحجب”. وتتضمن هذه الطريقة إخفاء بعض الكلمات في جملة ما حتى يقوم النموذج بملء الفراغات. وعلى سبيل المثال:
- ذهبت الفتاة إلى ………… حتى تمارس الرياضة.
- اشترى ……………. الخبز من أجل إعداد الشطائر.
تقول الفكرة إن دفع النموذج إلى تكرار هذه التمارين لملايين المرات، في أغلب الأحيان، سيتيح له اكتشاف أنماط تجميع الكلمات في الجمل وأنماط تجميع الجمل في المقاطع. ولهذا، يتمتع النموذج بقدرة أفضل على توليد النصوص وتفسيرها، ما يجعله أقرب إلى فهم معنى اللغة. (حالياً، تعتمد جوجل على بيرت لتقديم نتائج بحث أكثر فائدة في محرك البحث) بعد أن أثبتت طريقة الحجب فعالية عالية، سعى الباحثون إلى تطبيقها على النماذج المرئية اللغوية بإخفاء الكلمات في جمل قصيرة، مثل:
في هذه المرة، يستطيع النموذج “النظر” إلى الكلمات الأخرى المحيطة ومحتوى الصورة حتى يتمكن من ملء الفراغ. وعبر تكرار العملية ملايين المرات، يستطيع بعد ذلك أن يكتشف نمط الكلمات، بالإضافة إلى العلاقات بين الكلمات وعناصر كل صورة.
ونحصل بذلك على نموذج قادر على ربط التوصيفات النصية مع المراجع المرئية، تماماً كما يكتشف الأطفال الصلة بين الكلمات التي يتعلمونها والأشياء التي يرونها. وعلى سبيل المثال، تستطيع النماذج أن تتفحص الصورة أدناه، وتكتب جملة قصيرة معبرة عنها بشكل معقول، مثل: “نساء يلعبن هوكي الملاعب العشبية” أو تستطيع الإجابة عن أسئلة حول هذه الصور مثل: “ما لون الكرة؟” وذلك بالربط ما بين كلمة “كرة” والجسم الدائري الموجود في الصورة.
الصورة تغني عن آلاف الكلمات
ولكن باحثي إيه آي 2 رغبوا في معرفة ما إذا كانت هذه النماذج قد طورت فعلاً درجة من الفهم المجرد للعالم المرئي؛ حيث إن الطفل الذي تعلم الكلمة التي تصف جسماً ما لن يستطيع تذكر هذه الكلمة لتحديد هذا الجسم وحسب، بل يستطيع أيضاً رسم الجسم عندما تذكّره الكلمة به، حتى لو لم يكن الجسم نفسه موجوداً؛ ولهذا طلب الباحثون من النماذج أن تقوم بنفس الشيء، أي توليد الصور اعتماداً على عبارات وصفية قصيرة. لكن كل النماذج قامت بتوليد أنماط نقطية لا معنى لها بدلاً من ذلك.
قد يبدو هذا منطقياً، فتحويل النصوص إلى صور أمر أصعب بكثير من تحويل الصور إلى نصوص؛ حيث إن العبارة التوضيحية القصيرة لا تحدد كل ما تحتويه الصورة، وذلك وفقاً لآني كيمبافي، الذي يقود فريق الرؤية الحاسوبية في إيه آي 2. ولهذا، يحتاج النموذج إلى التمتع بالكثير من المنطق السليم حول العالم حتى يضيف التفاصيل المطلوبة.
وعلى سبيل المثال، إذا طلبنا من الذكاء الاصطناعي رسم “زرافة تمشي على طريق”، فعليه الاستنباط أيضاً أن الطريق يرجح أن يكون رمادي اللون، لا باللون الوردي الفاقع، كما أنه سيكون على الأرجح قرب حقل من الأعشاب، لا قرب المحيط، على الرغم من أن هذه المعلومات لم تُذكر صراحةً.
ولهذا، قرر كيمبافي -بالاشتراك مع زملائه جايمين تشو وجياسين لو وهاناني هاجيشرزي- أن يدرسوا إمكانية تعليم النموذج كل هذه المعرفة البصرية الضمنية، وذلك عن طريق تعديل مقاربتهم لطريقة الحجب. فبدلاً من تدريب النموذج على توقع الكلمات المحجوبة في العبارات التوضيحية القصيرة الموافقة للصور وحسب، قاموا أيضاً بتدريبه على توقع البكسلات المحجوبة في الصور على أساس العبارات القصيرة الموافقة.
قد لا تبدو الصور النهائية التي ولدها الذكاء الاصطناعي واقعية إلى درجة كافية، ولكن هذا ليس مهماً؛ حيث إنها تحتوي على المفاهيم المرئية الأساسية الصحيحة، وفي هذه الحالة، يقابل الذكاء الاصطناعي طفلاً يرسم شخصية مكونة من خطوط بدائية للتعبير عن كائن بشري. (يمكنك أن تجرب استخدام النموذج بنفسك هنا).
إن قدرة الأنظمة المرئية اللغوية على توليد الصور بهذه الطريقة تمثل خطوة هامة نحو الأمام في أبحاث الذكاء الاصطناعي. وتشير إلى أن النموذج يستطيع فعلياً تحقيق مستوى معين من التجريد، وهو مهارة أساسية ضرورية لفهم العالم.
وعلى المدى البعيد، يمكن لهذا أن يؤدي إلى نتائج هامة بالنسبة للروبوتات؛ فكلما كان الروبوت أكثر براعة في فهم محيطه المرئي واستخدام اللغة في التواصل المعبر عن هذا المحيط، كان أكثر قدرة على أداء مهام أكثر تعقيداً. أما على المدى القريب، فإن هذا النوع من التمثيل البصري يمكن أن يساعد الباحثين على تحسين فهمهم لما تتعلمه هذه النماذج الأقرب إلى “صناديق سوداء” بالضبط، وفقاً لهاجيشرزي.
في المرحلة القادمة، يخطط الفريق لإجراء المزيد من الاختبارات لتحسين جودة توليد الصور وتوسيع المفردات المرئية واللغوية للنموذج حتى تشمل المزيد من المواضيع، والأشكال، والصفات.
يقول لو: “لقد كان توليد الصور بمثابة القطعة المفقودة من الأحجية. وباستخدام هذه القطعة، يمكن أن نحسن من قدرة النموذج على تعلم كيفية تمثيل العالم”.