بماذا يختلف نظام الذكاء الاصطناعي الصيني الجديد «إرني-فيلج» عن دال-إي 2؟

قامت شركة بايدو بتطوير نظام ذكاء اصطناعي جديد لتحويل النصوص إلى صور تظهر فيها الأجسام والشخصيات الصينية بدقة أعلى مما تقدمه الأنظمة الحالية. ولكن آلية الرقابة المدمجة ستقوم بفلترة الكلمات التي تحمل حساسية سياسية.

هناك نظام ذكاء اصطناعي جديد لتحويل النصوص إلى صور. ويحمل هذا النظام الجديد اسم إرني-فيلج (ERNIE-ViLG)، وقد قامت بتطويره الشركة التكنولوجية الصينية بايدو (Baidu)، ويستطيع هذا النظام توليد الصور التي تجسّد الخصوصية الثقافية الصينية. ويستطيع هذا النظام أيضاً توليد صور أنمي فنية أفضل من "دال-إي 2" (DALL-E 2) أو غيره من أنظمة الذكاء الاصطناعي الغربية لتوليد الصور.

انتقائية في تطوير النظام

ولكن هناك الكثير من الأشياء التي يرفض النظام عرضها عليك، مثل ساحة تيانانمن، وهي ثاني أكبر ساحة مدينة في الصين، ورمز سياسي مهم.

وعندما تم إطلاق نسخة تجريبية من البرنامج في أواخر أغسطس/ آب، سرعان ما أدرك المستخدمون أن كلمات معينة مثل الأسماء الصريحة للقادة السياسيين، والكلمات التي من المحتمل أن تثير الجدل في السياقات السياسية فقط قد تم تصنيفها على أنها "حساسة"، ويقوم البرنامج بمنعها من توليد أي نتيجة. ويبدو أن النظام الصيني المعقّد للرقابة على الإنترنت قد تم توسيع نطاقه ليصل إلى أحدث توجهات الذكاء الاصطناعي.

ليس من النادر أن تقوم أنظمة الذكاء الاصطناعي المشابهة بمنع المستخدمين من توليد أنواع معينة من المحتوى. فدال-إي 2 يحظر المحتوى الجنسي، أو وجوه الشخصيات العامة، أو صور العلاج الطبي. ولكن حالة إرني-فيلج تطرح التساؤل حول الحد الذي تنتهي عنده رقابة المحتوى العادية وتبدأ الرقابة السياسية.

ما الذي يميز نموذج إرني-فيلج؟

يمثل نموذج إرني-فيلج جزءاً من وينشين (Wenxin)، وهو مشروع عالي المستوى في مجال معالجة اللغات الطبيعية من أهم شركة صينية في الذكاء الاصطناعي، بايدو. وقد تم تدريبه باستخدام مجموعة بيانات من 145 مليون زوج من الصور والنصوص، ويحتوي على 10 مليار مُعامل وسيط، وهي القيم التي تقوم الشبكة العصبونية بتعديلها أثناء عملية التعلم، والتي يستخدمها الذكاء الاصطناعي لتمييز الاختلافات الصغيرة بين الأفكار والأساليب الفنية المختلفة. وهذا يعني أن مجموعة البيانات الخاصة بتدريب إرني-فيلج أصغر من مثيلتها لدى دال-إي 2 (650 مليون زوج) وستيبل ديفيوجن (Stable Diffusion) (2.3 مليار زوج)، ولكنه يحتوي على معاملات أكبر مما لدى أي منهما (3.5 مليار معامل لدى دال-إي و890 مليون معامل لدى ستيبل ديفيوجن). وقد أطلقت بايدو نسخة تجريبية على منصتها الخاصة في أواخر أغسطس/ آب، ولاحقاً على منصة هاغينغ فيس (Hugging Face)، والتي تمثل مجتمعاً دولياً ذائع الصيت للذكاء الاصطناعي.

ويكمن الفرق الأساسي بين إرني-فيلج والنماذج الغربية في قدرة النموذج الذي طورته بايدو على فهم التعليمات المكتوبة بالصينية، كما أن هذا النموذج أكثر قدرة على تفادي الوقوع في الخطأ فيما يتعلق بالكلمات ذات الطابع الثقافي.

اقرأ أيضاً: ما الذي يعرفه نموذج الذكاء الاصطناعي جي بي تي 3 عني؟

وعلى سبيل المثال، فقد قام منتج مقاطع فيديو صيني بمقارنة النتائج من النماذج المختلفة لتعليمات تتضمن شخصيات تاريخية صينية، وأسماء لأشخاص من مشاهير الثقافة الشعبية والطعام. ووجد أن إرني-فيلج تمكن من إنتاج صور أكثر دقة من دال-إي 2 أو ستيبل ديفيوجن. وبعد إطلاقه، لاقى إرني-فيلج ترحيباً في أوساط عشاق الأنمي الياباني أيضاً، فقد وجدوا أن النموذج قادر على إنتاج أعمال أنمي فنية أفضل من النماذج الأخرى، ومن المرجح أن هذا يعود إلى وجود نسبة أكبر من الأنمي في بيانات التدريب.

ولكن إرني-فيلج سيتميز، شأنه شأن النماذج الأخرى، بما يسمح به. وخلافاً لدال-إي 2 أو ستيبل ديفيوجن، لم يحظَ إرني-فيلج بشرح منشور لسياسة رقابة المحتوى، وقد رفضت بايدو أن تقدم أي تعليق لنشره في هذا المقال.

وعندما تم نشر النسخة التجريبية من إرني-فيلج على هاغينغ فيس، كان المستخدمون الذين يقومون بإدخال كلمات محددة يتلقون الرسالة التالية: "تم العثور على كلمات حساسة، يرجى إعادة الإدخال" (存在敏感词，请重新输入)، وهو ما يمثل اعترافاً صادقاً ومفاجئاً بوجود آلية الفلترة. ولكن، ومنذ 12 سبتمبر/ أيلول، تم تغيير الرسالة إلى: "إن المحتوى الذي تم إدخاله لا يتوافق مع القواعد المرعية، يرجى إعادة المحاولة بعد تعديله" (输入内容不符合相关规则，请调整后再试！).

وفي اختبار أجرته إم آي تي تكنولوجي ريفيو للبرنامج التجريبي، تم حجب عدد من الكلمات الصينية، مثل أسماء كبار القادة السياسيين الصينيين، مثل شي جينبينغ وماو تسي تونغ، وبعض المصطلحات التي يمكن أن تُعتبر حساسة سياسياً، مثل "ثورة" و"تسلق الجدران" (وهو تشبيه يعبّر عن استخدام خدمة اتصال عبر شبكة خاصة افتراضية "VPN" في الصين) واسم مؤسس بايدو ورئيسها التنفيذي، يانهونغ (روبن) لي.

وعلى حين أن بعض الكلمات مثل "ديمقراطية" و"حكومة" مسموحة بحد ذاتها، فإن النصوص التي تجمعها مع كلمات أخرى محظورة. أيضاً، لا يمكن العثور على ساحة تيانانمن في بكين ضمن إرني-فيلج، ومن المرجح أن هذا يعود لارتباطها بمجزرة تيانانمن، والتي تحظر الرقابة الصينية أي إشارة إليها بشدة.

لا بد من الرقابة

في الوقت الحالي في الصين، تقوم شركات التواصل الاجتماعي عادة بوضع قوائم خاصة بها من الكلمات الحساسة، والمستقاة من التعليمات الحكومية وقراراتها التنفيذية الخاصة. وهذا يعني أن الفلتر الذي يستخدمه إرني-فيلج سيختلف على الأرجح عن أي فلاتر يستخدمها تطبيق وي تشات الذي تمتلكه شركة تينسينت (Tencent) أو تطبيق ويبو الذي تشغله شركة سينا (Sina). وقد خضعت بعض هذه المنصات لاختبار منهجي من قبل مجموعة البحث التي تعمل في تورونتو، سيتيزن لاب (Citizen Lab).

وقد كان باديوكاو، وهو فنان رسوم متحركة سياسي صيني–أسترالي (ويستخدم هذا الاسم المستعار من أجل أعماله الفنية لحماية هويته) أحد أول المستخدمين الذين لاحظوا وجود الرقابة في إرني-فيلج. وتتضمن الكثير من أعماله الفنية انتقادات للحكومة الصينية أو قادتها السياسيين، ولهذا فقد كانت هذه المصطلحات والتسميات ضمن أولى التعليمات التي قام بتلقيمها إلى البرنامج. يقول باديوكاو: "بطبيعة الحال، كنت أستكشف نظامه متعمداً. ونظراً لكونه مجالاً جديداً، فقد شعرت بالفضول لمعرفة ما إذا كانت الرقابة قد وصلت إليه. ولكن النتيجة كانت مخيبة للآمال".

ونظراً لكونه فناناً، فإن باديوكاو لا يتفق مع أي شكل من أشكال الإشراف في أنظمة الذكاء الاصطناعي هذه، بما فيها المقاربة المستخدمة في دال-إي 2، لأنه يعتقد أن قرار تحديد الأشياء المقبولة وغير المقبولة في فنه يجب أن يكون عائداً إليه. ولكنه يحذر من الخلط بين الرقابة التي تعتمد على أسس أخلاقية والرقابة التي تعتمد على أسس سياسية. ويقول: "هناك فرق بين الذكاء الاصطناعي الذي يطلق الأحكام حول ما لا يستطيع توليده بناءً على معايير أخلاقية متفق عليها، وبين نظام ذكاء اصطناعي تتدخل فيه حكومة ما كطرف ثالث وتقول إنه يجب عدم القيام بهذا الشيء أو ذاك لأنه يضر بالبلاد أو الحكومة الوطنية".

صعوبة وضع حد بين الرقابة الاخلاقية والسياسية

الصعوبة في وضع حد واضح بين الرقابة الأخلاقية والسياسية إنما هي نتيجة للاختلافات القائمة بين الثقافات والأنظمة القانونية، كما تقول كبيرة مختصي الأخلاقيات في هاغينغ فيس، جيادا بيستيلي. وعلى سبيل المثال، فقد يتم تفسير نفس الصورة بشكل مختلف نتيجة اختلاف الثقافات. وتقول: "بالنسبة للرموز الدينية، فهي ممنوعة في فرنسا، وهذا تعبيرهم الخاص عن العلمانية. أما في الولايات المتحدة، فإن العلمانية تعني أن كل شيء مسموح به، كالرموز الدينية كافة على سبيل المثال". في يناير/ كانون الثاني، اقترحت الحكومة الصينية قانوناً جديداً يحظر أي محتوى قام الذكاء الصناعي بتوليده إذا كان "يمثل خطراً على الأمن القومي والاستقرار الاجتماعي"، وهو ما يمكن أن يشمل أنظمة ذكاء اصطناعي مثل إرني-فيلج.

وتقول بيستيلي إن قيام المطورين بنشر وثيقة توضح قرارات الرقابة قد يكون أمراً إيجابياً في حالة إرني-فيلج: "هل تم حظر هذ الشيء أو ذاك لأنه ممنوع قانوناً؟ أم أن السبب يعود إلى اعتقادهم بأنه يستحق الحظر؟ من المفيد على الدوام أن نقوم بتفسير حججنا وخياراتنا".

وعلى الرغم من نظام الرقابة الداخلي، فسيبقى إرني-فيلج عنصراً مهماً في بيئة تطوير أنظمة الذكاء الاصطناعي المختصة بتحويل النص إلى صورة. إن ظهور نماذج الذكاء الاصطناعي المدربة على مجموعات بيانات بلغات محددة سيعوض شيئاً من محدودية النماذج السائدة المبنية على اللغة الإنجليزية. وسيكون هذا النظام مفيداً على وجه خاص للمستخدمين الذين يحتاجون نظام ذكاء اصطناعي قادر على فهم اللغة الصينية وتوليد صور دقيقة وفق التعليمات المقدمة إليه.

وكما تمكنت منصات التواصل الاجتماعي الصينية من تحقيق الازدهار على الرغم من الرقابة الشديدة، فإن نفس النتيجة قد تكون من نصيب إرني-فيلج وغيره من نماذج الذكاء الاصطناعي الصينية في نهاية المطاف، فهي مفيدة للغاية.