في عام 2017، وجد باحثون في شركة ميتا (فيسبوك سابقاً) أن اثنين من الروبوتات التي طورها قسم الذكاء الاصطناعي بالشركة (FAIR) يتواصلان مع بعضهما بعضاً بطريقة غير متوقعة. استخدم الروبوتان أليس وبوب لغة غير مفهومة للتفاوض فيما بينهما، وقد شاع آنذاك أن الشركة أوقفتهما عن العمل خوفاً من خروجهما عن السيطرة. الآن، وبعد 5 أعوام على هذه الحادثة، يبدو أن نظام ذكاء اصطناعي آخر بدأ في ابتكار لغته السرية الخاصة.
الذكاء واللغة
ترتبط اللغة ارتباطاً وثيقاً بتطور الذكاء لدى البشر، بل إنها تُعد أهم نتاج فكري للجنس البشري، فاللغة لا تجعلنا نتواصل مع بعضنا بعضاً فقط، وإنما تمكننا أيضاً من التفكير بشكل مجرد وصياغة الأفكار ونشرها في مناطق أخرى من العالم ونقلها للأجيال التالية، ومن ثم بناء الحضارة.
يرى العلماء أن القدرة على فهم اللغة هي معيار تطور الذكاء الاصطناعي. لذلك، فاللغة هي محور "اختبار تورنج"، الذي اقترحه عالم الحاسوب والرياضيات الإنجليزي آلان تورنج عام 1950. لا يمكن للحاسوب تخطي الاختبار إلا في حال عدم قدرة حكم بشري على التمييز بينه وبين إنسان حقيقي في محادثة تُجرى باستخدام لغة طبيعية.
اقرأ أيضاً: أحد الفائزين بجائزة مليون مبرمج عربي: ما هي اللغة التي سيتخاطب بها البشر مع الروبوتات في المستقبل؟
حقق الذكاء الاصطناعي خطوات مذهلة في هذا المجال خلال السنوات الأخيرة، إلى درجة أن هناك الآن حقلاً فرعياً كاملاً من الذكاء الاصطناعي متعلق بمعالجة اللغات الطبيعية (NLP). ولم يعد تركيز هذا الحقل ينصب على فهم الآلة للغة والتعرف على النصوص فقط، وإنما على توليد الكلام أيضاً، لاسيما باستخدام نماذج لغوية كبيرة (LLMs) مثل نموذج (جي بي تي-3) الذي طورته شركة أوبن إيه آي، والذي يعتمد على التعلم العميق لتوليد نصوص تشبه تلك التي يكتبها البشر.
ربط النص بالصورة
على الرغم من كل هذا التقدم الذي شهده مجال اللغويات الحاسوبية (COMPUTATIONAL LINGUISTICS)، لا يزال الذكاء الاصطناعي بعيداً عن تعلم اللغة بكفاءة مثل البشر. وقد دفع هذا الباحثين إلى التساؤل عما إذا كانت دراسة الدماغ البشري يمكن أن تساعد في بناء أنظمة ذكاء اصطناعي يمكنها التعلم والتفكير مثل البشر.
خلال الشهرين الماضيين، شهدنا سباقاً بين الشركات الكبرى لتطوير جيل جديد من نماذج الذكاء الاصطناعي التي يمكنها إنتاج صور عالية الدقة باستخدام أوامر مكتوبة باللغة الطبيعية (وليس التعليمات البرمجية). في أبريل الماضي، أعلنت "أوبن أيه آي" عن نموذج توليد الصور "دال-إي 2" (DALL-E 2)، وبعد أقل من شهر فقط أعلن فريق "جوجل براين" عن نظامه المماثل الذي يحمل اسم "إيماجن" (Imagen).
على الرغم من أن كلا النموذجين يمكنه توليد صور واقعية رائعة الجمال بمجرد إدخال نص يصف ما تريده بالضبط، إلا أن ثمة العديد من الجوانب التي لا تزال غامضة حول طريقة عملهما.
لغة "دال" السرية
يستفيد نظام "دال-إي 2" الجديد من الشبكة العصبونية "دال-إي" (Dall-E) التي أطلقتها "أوبن أيه آي" في بدايات 2021، والتي على الرغم من قدراتها الرائعة، إلا أنها صورها كانت سريالية وكرتونية الطابع في الغالب.
يعمل "دال-إي 2" على مرحلتين. في المرحلة الأولى، يعتمد على النموذج اللغوي "كليب" (CLIP) من أوبن أيه آي، لربط التوصيفات المكتوبة مع الصور، وترجمة التعليمات النصية إلى شكل وسطي يلتقط الميزات الأساسية التي يجب أن تحملها الصورة لمطابقة التعليمات المكتوبة. أما في المرحلة الثانية، فيقوم بتشغيل شبكة عصبونية معروفة باسم نموذج التوزيع لتوليد صورة تحقق معايير كليب.
منذ يوم 31 مايو الماضي، بدأ العديد من باحثي الذكاء الاصطناعي في كتابة تغريدات على موقع تويتر تشير إلى "لغة سرية" طورها برنامج "دال-إي 2" لا يفهمها إلا البرنامج نفسه. على سبيل المثال، لاحظ يانيس داراس، طالب الدكتوراه في علوم الحاسوب بجامعة تكساس في أوستن، أن كلمة (Apoploe vesrreaitais) يستخدمها البرنامج بمعنى "الطيور"، وأن كلمة (Contarra ccetnxniams luryca tanniounons) تعني الحشرات أو الآفات. وبالتالي، إذا كتبت للبرنامج الوصف التالي: (Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons) سيرسم لك صوراً لطيور تأكل الحشرات.
اقرأ أيضاً: بلبلة على تويتر: ما الذي يفعله عمال أمازون بالضبط؟
وفي سلسلة طويلة من التغريدات المتتابعة، يشرح الباحث أننا إذا طلبنا من "دال-إي 2" أن يرسم لنا مثلاً صورة لـ "مزارعين يتحدثان عن الخضروات، مع وجود ترجمة على الشاشة"، فسينتج صورة يتحدث فيها مزارعان يحملان خضروات في أيديهما، مع ظهور كلمات بلا معنى مثل كلمة (Vicootes).
A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.
However, the text is not as random as it initially appears... (2/n) pic.twitter.com/B3e5qVsTKu
— Giannis Daras (@giannis_daras) May 31, 2022
ومع ذلك، يقول داراس إن هذا النص ليس عشوائياً كما يبدو للوهلة الأولى، فعندما تعيد تغذية النظام بهذه الكلمات غير المنطقية -لمعرفة ما إذا كان الذكاء الاصطناعي قد خصص لها معانٍ معينة- ستجد أن الكلمات لها معانيها الخاصة فعلاً: إذا كتبت كلمة (Vicootes) مثلاً ستحصل على (أطباق بها) خضروات.
We feed the text "Vicootes" from the previous image to DALLE-2. Surprisingly, we get (dishes with) vegetables! We then feed the words: "Apoploe vesrreaitars" and we get birds. It seems that the farmers are talking about birds, messing with their vegetables! (3/n) pic.twitter.com/OiU7NPTbor
— Giannis Daras (@giannis_daras) May 31, 2022
في مثال آخر، جرب أن تطلب من البرنامج صورة لـ "اثنين من الحيتان يتحدثان عن الطعام مع ترجمة على الشاشة". سيرسم لك صورة يقول فيها أحد الحوتين (Wa ch zod rea). وإذا أعدت تغذية النص في البرنامج ستجد أن الحوتين يتحدثان على ما يبدو عن طعامها بلغة "دال-إي 2".
اقرأ أيضاً: نتائج تجربة مولد اللغة الجديد جي بي تي-3 من أوبن إيه آي تُظهر أنه جيد إلى حد مذهل
تحديات أمان
يرى داراس أن اكتشاف هذه اللغة التي طورها البرنامج يخلق تحديات أمان مثيرة للاهتمام. وقد عرض هذه التحديات في دراسة قصيرة كتبها مع زميله ألكسندروس ديماكيس، منشورة على خادم ما قبل الطباعة (arxiv)، لكنها لم تخضع بعد لمراجعة الأقران.
من ضمن التحديات المهمة أن النظام قد يتصرف بطرق لا يمكن التنبؤ بها إلى حد كبير، وحتى لو حدث هذا بشكل نادر وفي ظل ظروف غير متوقعة، مثل الأوامر المكتوبة بلغة غير مفهومة، فسيظل مصدر قلق كبير بالنسبة لبعض تطبيقات البرنامج.
علاوة على ذلك، تحتوي أنظمة معالجة اللغات الطبيعية في الوقت الحالي على مرشحات لتصفية الأوامر النصية التي تنتهك قواعد السياسات، إلا أن هذه الأوامر المكتوبة بلغة مبهمة يمكن استخدامها لتجاوز هذه المرشحات، أو استغلالها في هجمات الباب الخلفي المعادية (Backdoor Adversarial Attacks). كما أن هذه النتائج ستهز الثقة بشكل عام في هذه النماذج التوليدية الكبيرة.
كذلك، قد يثير وجود "لغة سرية" فعلاً مخاوف بشأن قابلية النظام للتفسير، فنحن نريد أن تتصرف هذه النماذج كما نتوقع منها، لكن رؤية هذه المخرجات المنظمة الناتجة عن مدخلات "مبهمة" يربك توقعاتنا.
للتأكد من أنه لن يُستخدم في إنتاج صور عنصرية أو عنيفة أو نشر معلومات مضللة، فرضت شركة أوبن أيه آي قيوداً على الوصول إلى البرنامج.
مفردات فقط وليست لغة
على الرغم من هذه الملاحظات المتعددة، يشكك باحثون آخرون في بعض من نتائج داراس. يقول آرون سنوسويل، زميل أبحاث ما بعد الدكتوراه في جامعة كوينزلاند للتكنولوجيا بأستراليا، إن "دال-إي 2" ربما لم يطور لغة سرية فعلاً، وقد يكون من الأدق القول إنه طور مفرداته الخاصة، لكن حتى هذا الأمر يظل غير مؤكد في ضوء أن عدداً قليلاً من الباحثين يمكنهم الوصول إلى النظام حتى الآن، بسبب القيود التي تفرضها الشركة المطورة.
من ضمن المعترضين على هذه الفكرة محلل الأبحاث بنجامين هيلتون، الذي طلب من البرنامج صورة لـ "اثنين من الحيتان يتحدثان عن الطعام مع ترجمة على الشاشة". في البداية لم يولد النظام سوى خربشات. لذلك، فقد استمر هيلتون في المحاولة حتى حصل على صورة بها نص -عبارة (Evve waeles)- يمكن إعادة تغذيته في النظام. لكن استخدام هذه الكلمة دفعت "دال-إي 2" لتوليد نتائج مختلفة، ما يدل على أن هذه الكلمات لا تعني دائماً نفس الشيء بالنسبة له. ومع ذلك، يعترف هيلتون أن عبارة (Apoploe vesrreaitais) تعرض صوراً للطيور في كل مرة، وبالتالي فإن "هناك شيء مؤكد" في ملاحظات داراس.
تفسيرات مختلفة
أحد التفسيرات لما يحدث هو أن هذه العبارات المبهمة مرتبطة بكلمات من لغات غير الإنجليزية. على سبيل المثال كلمة (Apoploe)، التي تنتج صور الطيور تشبه كلمة (Apodidae) اللاتينية التي تُستخدم للإشارة إلى إحدى عائلات الطيور. ويبدو هذا تفسيراً معقولاً، نظراً إلى تدريب "دال-إي 2" على مجموعة متنوعة من البيانات المأخوذة من الإنترنت، والتي تضمنت العديد من الكلمات غير الإنجليزية.
من ضمن التفسيرات الأخرى التي طرحها الباحثون أن النظام لا يعتمد على شبكة بايزية عصبونية (Bayesian neural network). وبالتالي، فإنه لا يأخذ متوسط عبر حالات عدم اليقين، وإنما يختار نتيجة واحدة. لا يمكن للنظام أن يرد على أوامرك قائلاً: "لا أعرف ما الذي تتحدث عنه". أثناء التدريب، لم تكن هناك حوافز لمنعه من هذه التنبؤات مفرطة الثقة؛ إذ كان يحصل على نقطة واحدة (كمكافأة) على الإجابة الصحيحة وصفر على الإجابة الخاطئة.
اقرأ أيضاً: الذكاء الاصطناعي ما زال يفتقر إلى المنطق السليم اللازم لفهم اللغة البشرية
بالإضافة إلى ذلك، وجد رافاييل ميليير، الباحث في علم الأعصاب بجامعة كولومبيا، أن الكلمات المبهمة الفردية لا يمكن دمجها دائماً لإنتاج صورة مركبة متماسكة، وهو الأمر الذي كان سيحدث بالتأكيد لو أن البرنامج يعمل باستخدام "لغة سرية".
تنوي "أوبن إيه آي" أن تتيح برنامجها "دال-إي 2" للعامة مستقبلاً. أما في الوقت الحالي، يمكن للمستخدمين تجربة نموذج أصغر متاح مجاناً هو "دال-إي ميني" (DALL-E mini)، واكتشاف ما إذا كان قد طور لغته السرية بالفعل أم لا.