صور جميلة ولدها الذكاء الاصطناعي تخفي سراً خطيراً

4 دقائق
صور جميلة ولدها الذكاء الاصطناعي تخفي سراً خطيراً
حقوق الصورة: جوجل.

مرّ شهر آخر، ومع هذا الشهر، شهدنا سيلاً آخر من الصور الغريبة والرائعة التي ولدها الذكاء الاصطناعي. ففي أبريل/ نيسان، استعرضت "أوبن أيه آي" (OpenAI) أحدث شبكاتها العصبونية الجديدة لتوليد الصور: "دال-إي 2" (DALL-E 2)، والتي تستطيع إنتاج صور عالية الدقة لأي شيء يُطلب منها تقريباً. وقد تمكنت هذه الشبكة من التفوق على شبكة دال-إي الأصلية بجميع الطرق تقريباً.

والآن، وبعد بضعة أسابيع وحسب، أطلق فريق "جوجل براين" (Google Brain) نظامه الخاص لتوليد الصور بالذكاء الاصطناعي، والذي يحمل اسم "إيماجن" (Imagen). وقد قدم هذا النظام أداء أفضل من دال-إي 2: فقد حقق علامات أعلى على مقياس تقييم جودة الصور المولدة حاسوبياً، كما أن مجموعة من الحكام البشر فضلوا الصور التي ينتجها.

وعلق أحد مستخدمي تويتر قائلاً: "نحن نشهد نسخة جديدة من السباق الفضائي، ولكن في مجال الذكاء الاصطناعي!" وعلق آخر قائلاً: "إن صناعة الصور عامة الاستخدام أصبحت بحكم المنتهية".

اقرأ أيضاً: دراسة صادمة: الناس يفضلون الخوارزميات على البشر لاتخاذ القرارات بشأن حياتهم

وبالفعل، فإن الكثير من صور إيماجن تدعو إلى الدهشة. وللوهلة الأولى، تبدو بعض المناظر الطبيعية الخارجية وكأنها مأخوذة مباشرة من صفحات مجلة "ناشيونال جيوغرافيك" (National Geographic). وتستطيع فرق التسويق استخدام إيماجن لإنتاج إعلانات جاهزة للعرض على اللوحات الإعلانية على الفور، بمجرد بضع نقرات وحسب.

ولكن، وكما فعلت أوبن أيه آي مع دال-إي، قررت "جوجل" (Google) الاعتماد على الظرافة بشكل كلي. وتروج كلتا الشركتين لأدواتهما باستخدام سلسلة من الصور المليئة بالحيوانات التي تقلد البشر أثناء قيامها بأفعال طريفة، مثل دب باندا ناعم الفراء ويرتدي لباس الطاهي ويقوم بصنع العجين، أو كلب كورغي الويلزي يجلس في منزل مصنوع من السوشي، أو دب محشو يشارك في سباق سباحة الفراشة لمسافة 400 متر في الألعاب الأولمبية، وهكذا دواليك.

ويعود هذا الاختيار إلى سبب فني، إضافة إلى سبب يتعلق بالعلاقات العامة. فالجمع بين مفاهيم مثل "باندا ناعم الفراء" و "يصنع العجين" يرغم الشبكة العصبونية على تعلم كيفية التلاعب بهذه المفاهيم بطريقة تبدو منطقية. ولكن الظرافة التي تنتجها هذه الأدوات تخفي خلفها سراً خطيراً، وهو سر لا يطلع عليه العامة لأنه يكشف الحقيقة البشعة حول كيفية صنع هذه الصور.

اقرأ أيضاً: الشبكات العصبونية عاجزة عن استيعاب مفهوم الخداع البصري

فمعظم الصور التي تنشرها أوبن أيه آي وجوجل للعامة مختارة بعناية. ونحن لا نرى سوى الصور الظريفة التي تتشابه مع توصيفاتها بدقة خارقة، وهو أمر متوقع. ولكننا لا نرى أي صور تحتوي على نماذج نمطية تعبر عن الكراهية أو العنصرية أو التمييز. ولا توجد صور عنيفة أو معادية للمرأة. وليس هناك أي صور إباحية للباندا. ولكن معلوماتنا عن هذه الأدوات تقول إن هذه الصور يجب أن تكون موجودة.

من المعروف أن النماذج الضخمة، مثل دال-إي 2 وإيماجن، تم تدريبها باستخدام عدد كبير من الوثائق والصور المأخوذة من الإنترنت، ما يعني أنها تحتوي على أسوأ أنواع البيانات وأفضلها أيضاً. وقد اعترفت كل من أوبن أيه آي وجوجل صراحةً بهذا الأمر. 

اقرأ أيضاً: الإخفاقات الغريبة في الصور التي تنشئها الخوارزميات 

وإذا قمت بتحريك الصفحة نحو الأسفل في موقع الويب الخاص بإيماجن، متجاوزاً فاكهة التنين التي ترتدي حزام الكاراتيه والصبارة الصغيرة التي ترتدي قبعة ونظارات شمسية، وصولاً إلى القسم المتعلق بالتأثير الاجتماعي، فسوف تقرأ التالي: "مع أننا قمنا بفلترة مجموعة فرعية من بيانات التدريب لإزالة الضجيج والمحتوى المسيء، مثل الصور الإباحية واللغة المسيئة، فقد قمنا أيضاً باستخدام مجموعة البيانات LAION-400M، والمعروفة باحتوائها على نطاق واسع من المحتوى المسيء، بما في ذلك الصور الإباحية، والمصطلحات العنصرية، والنماذج النمطية الاجتماعية المؤذية. يعتمد إيماجن على مرمزات نصية تم تدريبها على مجموعات بيانات على شبكة الإنترنت دون معالجة، ما يعني أنه سيمتص التحيزات الاجتماعية للنماذج اللغوية الكبيرة، وسيرث عنها حدود قدراتها. ولهذا، هناك احتمال خطير بقيام إيماجن بترميز النماذج النمطية والترميزات المؤذية، وهو الأساس الذي اعتمدنا عليه في قرارنا بعدم إطلاق إيماجن للعامة دون تطبيق المزيد من الإجراءات الوقائية".

اقرأ أيضاً: حقوق البيانات الجماعية قد تمنع الشركات التكنولوجية الكبيرة من تدمير الخصوصية

إنه اعتراف مشابه لاعتراف أوبن أيه آي عندما أعلنت عن النموذج اللغوي "جي بي تي 3" في 2019: "النماذج اللغوية التي تم تدريبها على الإنترنت تحمل التحيزات الموجودة على شبكة الإنترنت". وكما أشار مايك كوك، وهو باحث في مجال الابتكار في الذكاء الاصطناعي في جامعة كوين ماري في لندن، فإن هذا الاعتراف موجود أيضاً في التصريحات المتعلقة بالأخلاقيات، والتي رافقت أيضاً إطلاق النموذجين اللغويين الكبيرين "بالم" (PaLM) من جوجل و"دال-إي 2" من أوبن أيه آي. وباختصار، فإن هذه الشركات تعرف أن نماذجها قادرة على إنتاج محتوى مسيء للغاية، وليس لديها أدنى تصور عن كيفية معالجة هذه المشكلة. 

وفي الوقت الحالي، يبدو أن الحل الأفضل هو إبقاء هذه النماذج في مكانها ضمن المختبرات. فقد أتاحت أوبن أيه آي استخدام دال-إي 2 فقط لمجموعة صغيرة من المستخدمين الموثوقين، أما جوجل فليس لديها أي خطط لإطلاق إيماجن.

وهذا أمر لا بأس به لو كانت هذه النماذج مجرد ابتكارات خاصة بالشركة. ولكن هذه الشركات تعمل على زيادة قدرات الذكاء الاصطناعي، ويؤثر عملها على شكل الذكاء الاصطناعي المنتشر بيننا جميعاً. إن هذه الشركات تصنع عجائب جديدة، ولكنها أيضاً تصنع أهوالاً جديدة، ومن ثم تتابع طريقها بكل برود. فعندما تحدث فريق الأخلاقيات الخاص بجوجل عن مشكلات النماذج اللغوية الكبيرة في 2020، أدى هذا إلى نزاع انتهى بطرد اثنين من الباحثين الأساسيين في الفريق.

يمكن أن تؤدي تكنولوجيات النماذج اللغوية الكبيرة وأنظمة الذكاء الاصطناعي التي تركّب الصور إلى تغيير العالم، ولكن فقط إذا تمكنا من السيطرة على إساءاتها. وهو ما سيتطلب إجراء الكثير من الأبحاث الجديدة. وقد تم اتخاذ بعض الخطوات الأولية لفتح هذه الأنواع من الشبكات العصبونية أمام الدراسات على نطاق واسع. فمنذ بضعة أسابيع، نشرت شركة "ميتا" نموذجاً لغوياً كبيراً للباحثين، بكل أخطائه. ومن المفترض أن تقوم شركة "هاغينغ فيس" (Hugging Face) بإطلاق نسختها مفتوحة المصدر من جي بي تي 3 في الأشهر المقبلة. 

وحتى ذلك الحين، يمكنكم الاستمتاع بالصور الظريفة.