الذكاء الاصطناعي يقترب من تحقيق ثورة يمتلك بها المنطق السليم

من المرجح أنك قرأت هذه العبارة أو ما يشبهها في منشوراتنا مراراً وتكراراً: يُعد النموذج اللغوي جي بي تي 3، القادر على توليد نصوص أشبه بالكتابات البشرية، من المعجزات التكنولوجية. ولكنه مجرد سراب كبير أيضاً. ويمكنك أن تتأكد من هذا باتباع حيلة بسيطة؛ حيث يمكنك أن تسأله عن لون الخراف، وسيقترح اللون الأسود بقدر ما سيقترح اللون الأبيض، وذلك لوجود عبارة “الخروف الأسود” في اللغة الإنجليزية الشائعة (الذي يستخدم لوصف عضو غريب داخل مجموعة من الأشخاص).

وهذه في الواقع هي مشكلة النماذج اللغوية؛ فهي تفتقر إلى المنطق السليم لأنها تعتمد فقط على النصوص في تدريبها. والآن، قام باحثون من جامعة نورث كارولينا في تشابيل هيل بتصميم طريقة جديدة لتغيير هذا الوضع. تحمل هذه الطريقة اسم “التوصيف البصري‎”، وتمنح النماذج اللغوية مثل جي بي تي 3 القدرة على “الرؤية”.

ليست هذه المرة الأولى التي يسعى فيها الباحثون إلى دمج النماذج اللغوية مع الرؤية الحاسوبية. وفي الواقع، فإن هذه المسألة تمثل مجالاً سريع النمو في أبحاث الذكاء الاصطناعي. تقوم الفكرة على أن كلا نوعي أنظمة الذكاء الاصطناعي يتمتعان بنقاط قوة مختلفة. فقد دُربت النماذج اللغوية مثل جي بي تي 3 عبر التعلم غير الموجه، الذي لا يحتاج إلى بيانات مصنفة، ما يجعل من توسيع نطاق عملها أمراً سهلاً. أما النماذج المرئية مثل أنظمة التعرف على الأجسام، فعلى العكس من ذلك، فهي أقرب في طريقة تعلمها إلى الواقع؛ أي أن قدرتها على الاستيعاب لا تعتمد على تجريد العالم كما يحدث في النصوص، فهي تستطيع أن “ترى” في صور الخراف أنها فعلياً بيضاء اللون.

أيضاً، توجد تطبيقات عملية كثيرة لنماذج الذكاء الاصطناعي التي تستطيع فهم المدخلات اللغوية والمرئية في نفس الوقت. وعلى سبيل المثال، إذا أردنا بناء مساعد روبوتي، فسيحتاج إلى رؤية حاسوبية حتى يتمكن من التحرك ضمن البيئة المحيطة، والقدرة على استيعاب اللغة حتى يتواصل مع البشر.

ولكن دمج هذين النوعين من الأنظمة ليس بهذه السهولة؛ فالأمر أكثر من مجرد ربط بسيط بين أي نظام لغوي متوافر مع أي نظام متوافر للتعرف على الأشياء، بل يتطلب تدريب نموذج جديد من نقطة الصفر، مع استخدام مجموعة بيانات نصية مرئية.

ومن أكثر الطرق شيوعاً لتأمين مجموعة بيانات كهذه، تجميع كمية من الصور مع تعليقات وصفية. وعلى سبيل المثال، فإن صورة كالمبيّنة أدناه ستحمل التعليق التالي: “قطة برتقالية اللون تجلس داخل حقيبة استعداداً للتوضيب”. وتختلف هذه المجموعة عن مجموعة البيانات المرئية التقليدية التي تصنف نفس الصورة باسم واحد فقط، مثل “قطة”. ولهذا يمكن لمجموعة البيانات النصية المرئية أن تعلم الذكاء الاصطناعي التعرف على الأشياء، وأيضاً علاقاتها وسلوكها تجاه بعضها البعض، وذلك باستخدام الأفعال وأحرف الجر.

ولكن، من الواضح أن تجميع هذه البيانات سيستغرق وقتا طويلاً للغاية. وهذا ما يفسر الحجم الصغير لقواعد البيانات النصية المرئية الموجودة حالياً؛ فقد تحوي مجموعة بيانات نصية ذائعة الصيت -مثل ويكيبيديا الإنجليزية (التي تتضمن تقريباً جميع مواضيع ويكيبيديا الإنجليزية)- ما يقارب ثلاثة مليارات كلمة. أما مجموعة البيانات النصية المرئية، مثل مجموعة الأشياء الشائعة في السياق العام “MS COCO” من شركة مايكروسوفت، فقد تتضمن فقط 7 ملايين كلمة. وببساطة، فإنها لا تكفي لتدريب نماذج الذكاء الاصطناعي بما يكفي لتحقيق أي شيء مفيد.

غير أن طريقة التوصيف المرئي تلتف حول هذه المعضلة من خلال الاعتماد على طرق التعلم غير الموجه، التي تتيح توسيع نطاق مقدار صغير من البيانات في MS COCO إلى حجم ويكيبيديا الإنجليزية. إن النموذج المرئي اللغوي الناتج يتفوق في أدائه على أحدث النماذج في بعضٍ من أصعب الاختبارات المستخدمة لتقييم مدى استيعاب أنظمة الذكاء الاصطناعي اللغوية حالياً.

يقول توماس وولف، وهو أحد مؤسسي شركة هاجينج فيس لمعالجة اللغة الطبيعية (التي لم تشارك في هذا البحث)، ورئيس الشؤون العلمية فيها: “لا يمكنك أن تتغلب على أحدث النماذج في هذه الاختبارات بمجرد القيام بتعديلات شكلية. إنها ليست باختبارات يمكن الاستهانة بها. وهو ما يجعل هذه النتائج مثيرة للحماس إلى درجة كبيرة”.

من رموز نصية إلى رموز بصرية

لنطلع في البداية على بعض المصطلحات. ما هو الرمز البصري (voken)؟ في مصطلحات الذكاء الاصطناعي، تُعرف الكلمات المستخدمة لتدريب النماذج اللغوية بالرموز النصية Tokens، ولهذا قرر باحثو جامعة نورث كارولينا أن يطلقوا على الصورة المرفقة بكل رمز نصي في النموذج المرئي اللغوي اسم الرمز البصري (Voken). وبالتالي فإن المُرمّز البصري (vokenizer) هو الاسم الذي يُطلق على الخوارزمية التي تحدد الرموز البصرية المقابلة لكل رمز نصي، أما التوصيف البصري (vokenization) فهو الاسم الذي يُطلق على العملية بأكملها.

ولكننا لم نعرض هذه الكلمات من قبيل إثبات ميل باحثي الذكاء الاصطناعي إلى ابتكار مصطلحات جديدة. (على الرغم من أنهم يحبون هذا فعلاً) كما أن هذه المصطلحات ستساعد على تبسيط فكرة التوصيف البصري. فبدلاً من البدء مع مجموعة بيانات مرئية من الصور، وكتابة جمل التعليقات بشكل يدوي -وهي عملية بطيئة للغاية- بدأ باحثو نورث كارولينا بمجموعة بيانات لغوية واستخدموا التعلم غير الموجه لمطابقة كل كلمة مع صورة تتعلق بها (وسنتحدث عن هذا بمزيد من التفصيل لاحقاً). إنها عملية يمكن توسيع نطاقها بسهولة.

وفي الواقع، فإن طريقة التعلم غير الموجه هي المساهمة الجوهرية لهذا البحث. كيف يمكن أن تعثر على صورة متعلقة بكل كلمة فعلياً؟

التوصيف البصري

لنعد لبرهة إلى جي بي تي 3. ينتمي هذا النموذج إلى عائلة النماذج اللغوية المعروفة باسم المحولات، وعندما قُدم أول نموذج في عام 2017، اعتُبر بمنزلة إنجاز كبير في تطبيق التعلم غير الموجه على معالجة اللغة الطبيعية. تتعلم المحولات أنماط اللغة البشرية عن طريق مراقبة استخدام الكلمات في سياق ما ومن ثم بناء تمثيل رياضي لكل كلمة، يُعرف باسم “ترافق الكلمات”، بناءَ على هذا السياق. وعلى سبيل المثال، فإن كلمة “قطة” يمكن أن تظهر أنها تُستخدم بشكل متكرر مع كلمتي “مواء” و”برتقالية” ولكن بتكرار أقل مع كلمتي “نباح” و”زرقاء”.

هكذا تقوم المحولات بتقريب معاني الكلمات، وهو ما يتيح لجي بي تي 3 صياغة الجمل بشكل أقرب إلى الصياغة البشرية. فهو يعتمد جزئياً على هذه الترافقات من أجل تجميع الكلمات إلى جمل، والجمل إلى مقاطع.

وهناك طريقة موازية يمكن استخدامها أيضاً مع الصور. فبدلاً من مسح النص لكشف أنماط استخدام الكلمات، يقوم النظام بمسح الصور بحثاً عن الأنماط البصرية. وعلى سبيل المثال، يقوم النظام بحساب عدد المرات التي تظهر فيها القطة على السرير مقارنة بعدد المرات التي تظهر فيها على الشجرة، ويقوم ببناء ترافقات كلمة “قطة” بناء على هذه المعلومات السياقية.

وقد توصل باحثو نورث كارولينا إلى وجوب استخدام كلتا طريقتي الترافق مع قاعدة البيانات [MS COCO]. وقاموا بتحويل الصور إلى ترافقات بصرية والتعليقات إلى ترافقات نصية. وتتميز هذه الترافقات بإمكانية تمثيلها بيانياً في الفضاء ثلاثي الأبعاد، ورؤية علاقاتها ببعضها البعض بشكل فعلي؛ حيث تظهر الترافقات البصرية والترافقات النصية ذات الصلة القوية متقاربةً في الشكل البياني. أي أنه يُفترض بالترافقات البصرية للقطة -نظرياً- أن تتراكب مع الترافقات النصية للقطة. إنه أمر في غاية الروعة!

ويمكن أن نرى النتائج المستقبلية لهذا العمل. فما أن يتم تمثيل جميع الترافقات بيانياً والمقارنة فيما بينها وتحديد الارتباطات بين بعضها البعض، يصبح من السهل إجراء تقابل بين الصور (أي الرموز البصرية) مع الكلمات (أي الرموز النصية). وبما أن الصور والكلمات تتقابل فيما بينها بناء على ترافقاتها، فهي أيضاً تتقابل فيما بينها بناء على السياق. وتتجلى فائدة هذه الطريقة أيضاً عندما تحمل كلمة واحدة عدة معانٍ مختلفة. وقد تمكنت الطريقة الجديدة من التعامل مع هذه المسألة بنجاح عبر تحديد رموز بصرية مختلفة لكل معنى من معاني الكلمة.

وعلى سبيل المثال:

هذه جهة الاتصال الخاصة بها [Contact].

تحب بعض القطط التلامس المباشر [Contact] مع البشر.

في كلا المثالين، تمثل كلمة [Contact] الرمز النصي المستخدم. ولكن في الجملة الأولى، يشير السياق إلى أن الكلمة تعني معلومات جهة الاتصال، ولهذا فإن الرمز البصري هي صورة أيقونة جهات الاتصال. أما في الجملة الأخرى، فإن السياق يشير إلى أن المقصود بالكلمة هو فعل التلامس، ولهذا فإن الرمز البصري هي صورة قطة يربت عليها إنسان.

استخدم الباحثون الترافقات النصية والبصرية التي قاموا ببنائها انطلاقاً من [MS COCO] لتدريب خوارزمية التوصيف البصري. وما أن تم تدريب هذه الخوارزمية، حتى تمكن المرمّز البصري من اكتشاف الرموز البصرية المقابلة للرموز النصية في ويكيبيديا الإنجليزية. غير أن عمل هذه الخوارزمية ليس مثالياً؛ فقد تمكنت من العثور على رموز بصرية لما يقارب 40% من الرموز النصية فقط. ولكن علينا ألا ننسى أن هذه النسبة تعني 40% من مجموعة تقارب ثلاثة مليارات كلمة.

وبوجود مجموعة البيانات الجديدة هذه، أعاد الباحثون تدريب النموذج اللغوي بيرت، وهو محول مفتوح المصدر قامت جوجل بتطويره قبل ظهور جي بي تي 3. وبعد ذلك، عرَّضوا نموذج بيرت الجديد والمحسن إلى ستة اختبارات مختلفة لاستيعاب اللغة، بما في ذلك اختبار مجموعة بيانات ستانفورد للإجابة عن الأسئلة SQuAD، الذي يوجه إلى النماذج أسئلة تتعلق باستيعاب القراءة حول مجموعة من المقالات، واختبار SWAG، الذي يحاول خداع النماذج باستخدام تفاصيل دقيقة في معاني كلمات اللغة الإنجليزية؛ وذلك لتحديد ما إذا كان النموذج يقوم بتقليد النصوص واستذكارها وحسب. تفوّق نموذج بيرت المحسن في الأداء أمام كافة الاختبارات، وهو أمر يصفه وولف بأنه مثير للإعجاب.

سيقدم الباحثان هاو تان، وهو طالب دكتوراه، ومستشاره موهيت بانسال، طريقة التوصيف البصري الجديدة قريباً في مؤتمر حول الطرائق التجريبية في معالجة اللغات الطبيعية. وعلى الرغم من أن العمل ما زال في مراحله المبكرة، إلا أن وولف يعتقد بأن استخدام التعلم غير الموجه في النماذج اللغوية البصرية يمثل إنجازاً مذهلاً في غاية الأهمية على الصعيد المفاهيمي. وهو مماثل للشرارة التي ساعدت على تحقيق خطوات كبيرة في معالجة اللغة الطبيعية في بداياتها.

ويقول: “لقد حققنا إنجازات ضخمة في معالجة اللغة الطبيعية منذ أكثر من سنتين، وتحول هذا الحقل فجأة إلى حقل يضج بالعمل والنشاط، متقدماً على جميع الحقول الأخرى المتعلقة بالذكاء الاصطناعي. ولكننا واجهنا مشكلة في ربط النصوص بأشياء أخرى. ويمكن تشبيه هذه المشكلة بروبوت يستطيع الكلام وحسب، ولكنه لا يستطيع أن يرى أو يسمع”.

“يمثل هذا البحث مثالاً واحداً عن نجاح الباحثين في جمع اللغة مع نموذج آخر، وتحقيق نتائج أفضل. ويمكن أن نتخيل إمكانية إعادة استخدام بعض من هذه الطرق عند الرغبة بالاستفادة من هذا النموذج اللغوي الجبار في تصميم روبوت معين؛ فقد نستخدم الطريقة نفسها لوصل حواس هذا الروبوت مع الكلمات والنصوص”.