لماذا يفشل فيو 3 (3 VEO) في احترام طلبات «دون ترجمة»؟

3 دقيقة
أداة ذكية جديدة تهدد الأعمال الفنية
حقوق الصورة: Shutterstock.com/SvetaZi

بمجرد أن أطلقت شركة جوجل أحدث نموذج للذكاء الاصطناعي لإنشاء مقاطع الفيديو في نهاية شهر مايو/أيار، سارع المبدعون إلى اختباره. صدر النموذج "فيو 3" بعد أشهر قليلة من إصدار سابقه فقط، متيحاً للمستخدمين توليد الأصوات والحوار أول مرة، ما أثار موجة من مقاطع الفيديو الواقعية للغاية، والتي مدتها ثماني ثوان، والمدمجة في الإعلانات ومقاطع فيديو استجابة القنوات الحسية الذاتية (ASMR) ومقاطع الفيديو الدعائية لأفلام تخيلية والمقابلات الفكاهية في الشوارع. وقد استخدم المخرج المرشح لجائزة الأوسكار دارين أرونوفسكي هذه الأداة لإنتاج فيلم قصير بعنوان "أنسيسترا" (Ancestra). خلال مؤتمر صحفي، شبه الرئيس التنفيذي لشركة جوجل ديب مايند، ديميس هاسابيس، هذه القفزة إلى الأمام بـ "الخروج من العصر الصامت لإنتاج الفيديو".

فيو 3 يضيف ترجمات غير منطقية

ولكن سرعان ما وجد آخرون أن الأداة لا تتصرف في بعض النواحي كما هو متوقع. فعندما يولد "فيو 3" مقاطع تتضمن حواراً، غالباً ما يضيف ترجمات غير منطقية ومشوشة، حتى عندما تطلب الأوامر النصية التي يقدمها المستخدمون صراحة عدم إضافة أي تعليقات توضيحية أو ترجمات.

التخلص من هذه الإضافات ليس بالأمر السهل أو الزهيد التكلفة. وقد اضطر المستخدمون إلى إعادة إنتاج المقاطع (وهو ما يكلفهم المزيد من المال)، أو استخدام أدوات خارجية لإزالة الترجمة، أو اقتصاص مقاطع الفيديو الخاصة بهم للتخلص من الترجمة نهائياً.

وقد نشر نائب رئيس مختبرات جوجل وجيميناي، جوش وودوارد، على منصة إكس في 9 يونيو/حزيران أن جوجل قد طورت حلولاً للحد من النصوص غير المفهومة. ولكن بعد مرور أكثر من شهر، لا يزال المستخدمون يسجلون مشاكلهم في قناة ديسكورد الخاصة بمختبرات جوجل، ما يوضح مدى صعوبة تصحيح المشكلات في نماذج الذكاء الاصطناعي الرئيسية.

كما هي حال الإصدارات السابقة من فيو 3، فإن هذا النموذج متاح للأعضاء الذين يدفعون اشتراكات شهرية لجوجل، والتي تبدأ من 249.99 دولاراً شهرياً. ولإنشاء مقطع فيديو مدته ثماني ثوان، يدخل المستخدمون أمراً نصياً يصف المشهد الذي يرغبون في إنشائه إما عبر الأداة فلو (Flow) لصناعة الأفلام بالذكاء الاصطناعي، أو عبر جيميناي (Gemini) وكلاهما من جوجل، أو عبر منصات جوجل الأخرى. تكلف عملية التوليد الواحدة باستخدام فيو 3 ما لا يقل عن 20 نقطة من الرصيد المخصص لاستخدام الذكاء الاصطناعي، ويمكن أن يكلف شحن الحساب برصيد يبلغ 2,500 نقطة مقابل 25 دولاراً.

اقرأ أيضاً: ما هو فيو 2 من جوجل؟ وما هي مزاياه؟ وكيف يمكن استخدامه؟

تكلفة زائدة على المستخدمين 

تقول المخرجة الإبداعية في مجال الإعلانات، منى وايس، إن إعادة توليد مشاهدها في محاولة للتخلص من التعليقات التوضيحية العشوائية أصبح مكلفاً. وتضيف: "إذا كنت تنشئ مشهداً يحتوي على حوار، فإن ما يصل إلى 40% من المحتوى الناتج يحتوي على ترجمات غير مفهومة تجعله غير صالح للاستخدام. أنت تنفق الكثير من المال في محاولة الحصول على مشهد يعجبك، ولكنك لا تستطيع استخدامه حتى".

عندما أبلغت وايس مختبرات جوجل عن المشكلة من خلال قناة ديسكورد الخاصة بها أملاً في استرداد قيمة رصيدها المهدورة، وجهها فريق القناة إلى فريق الدعم الرسمي للشركة. وقد عرضوا عليها استرداد تكلفة فيو 3، لكن ذلك لم يتضمن استرداد نقاط الرصيد. رفضت وايس العرض، لأن قبولها كان سيعني فقدان إمكانية الوصول إلى النموذج بالكامل.

كان فريق دعم مختبرات جوجل على ديسكورد يخبر المستخدمين طوال الوقت أن الترجمة قد يجري تفعيلها عن طريق الكلام، مؤكدين أنهم على دراية بالمشكلة ويعملون على إصلاحها.

إذاً لماذا يصر فيو 3 على إضافة هذه الترجمات ضمن شرائط ترجمة الفيديو؟ ولماذا يبدو حل المشكلة صعباً إلى هذه الدرجة؟ ربما يعود الأمر إلى ما تدرب عليه النموذج.

لماذا يبدو حل المشكلة صعباً إلى هذه الدرجة؟ 

على الرغم من أن جوجل لم تعلن عن هذه المعلومات على الملأ، فمن المرجح أن تتضمن بيانات التدريب هذه مقاطع فيديو من منصة يوتيوب، ومقاطع من مدونات الفيديو وقنوات الألعاب، ومقاطع معدلة على منصة تيك توك، والكثير منها مزود بالترجمات المرئية. يقول الأستاذ المساعد في جامعة كلارك في ماساتشوستس الذي يدرس منصات مشاركة الفيديو والذكاء الاصطناعي، شوو نيو، إن هذه الترجمات المرئية المضمنة هي جزء من إطارات الفيديو وليست مسارات نصية منفصلة مضافة إليها، ما يعني أن من الصعب إزالتها قبل استخدامها للتدريب.

ويضيف قائلاً: "يجري تدريب نموذج تحويل النص إلى فيديو باستخدام التعلم المعزز لإنتاج محتوى يحاكي مقاطع الفيديو التي ينشئها البشر، وإذا كانت مقاطع الفيديو هذه تتضمن ترجمات مرئية، فقد ’يتعلم‘ النموذج أن دمج الترجمة المرئية يعزز التشابه مع المحتوى الذي ينشئه البشر".

يقول متحدث باسم شركة جوجل: "نحن نعمل باستمرار على تحسين إنشاء مقاطع الفيديو، خاصة مع النص والكلام الذي يبدو طبيعياً والصوت الذي يتزامن بطريقة مثالية. نحن نشجع المستخدمين على تجربة أوامرهم النصية مرة أخرى إذا لاحظوا عدم الاتساق في المخرجات، وإبداء ملاحظاتهم باستخدام الخيار الذي يعبر عن الموافقة أو الرفض".

 اقرأ أيضاً: هل تريد استبدال جوجل درايف؟ إليك بدائل تخزين سحابية

أما بالنسبة إلى سبب تجاهل النموذج لتعليمات مثل "من دون ترجمة"، يقول الأستاذ المساعد في جامعة ستوني بروك الذي يدرس أنظمة الذكاء الاصطناعي، توهين تشاكرابارتي: "عادة ما تكون الأوامر النصية السلبية (الطلب من نموذج الذكاء الاصطناعي التوليدي عدم فعل أمر ما) أقل فعالية من تلك الإيجابية".

ولإصلاح هذه المشكلة، سيتعين على جوجل التحقق من كل إطار من كل مقطع فيديو جرى تدريب فيو 3 عليه، وإما التخلص من الإطارات التي تحتوي على تعليقات توضيحية مرئية وإما إعادة تصنيفها قبل إعادة تدريب النموذج، وهو مسعى قد يستغرق أسابيع، على حد قول تشاكرابارتي.

وتعتقد صانعة الأفلام الوثائقية والمديرة الفنية في مختبر الأفلام الوثائقية المفتوحة بمعهد ماساتشوستس للتكنولوجيا، كاترينا سيزيك، أن المشكلة تجسد رغبة جوجل في إطلاق المنتجات قبل أن تكون جاهزة تماماً.

وتقول سيزيك: "كانت جوجل في حاجة إلى تحقيق انتصار. كان عليهم أن يكونوا أول من يطلق أداة تولد صوتاً متزامناً مع حركة الشفاه. وكان ذلك أهم من إصلاح مشكلتهم المتعلقة بالترجمة المرئية".

تقنيات الفيديو التوليدي تتطور بسرعة، لكن بعض التحديات التقنية لا تزال تقف عائقاً أمام الكفاءة والجودة المرجوة. نموذج "فيو 3" من شركة جوجل يبرز مثالاً على ذلك من خلال مشكلته مع الترجمات المرئية غير المرغوبة:

  • يضيف "فيو 3" ترجمات عشوائية وغير منطقية إلى الفيديوهات، حتى عند طلب إزالتها صراحة.
  • إزالة هذه الترجمات تتطلب وقتاً وتكاليف إضافية، وقد تؤدي إلى خسارة المشهد المطلوب بالكامل.
  • المستخدمون يعبرون عن استيائهم من خلال قنوات الدعم، بينما لا تزال جوجل تقدم حلولاً محدودة.
  • التدريب على بيانات تحتوي على ترجمات مدمجة، مثل فيديوهات يوتيوب وتيك توك، يرجح أن يكون سبباً في سلوك النموذج.
  • الأوامر النصية السلبية مثل "من دون ترجمة" أقل تأثيراً في النموذج من الأوامر الإيجابية.
  • تعديل بيانات التدريب أو إعادة تصنيفها يتطلب جهداً زمنياً وتقنياً كبيراً.
  • التسرع في إطلاق المنتجات قد يكون دافع جوجل لتجاوز بعض العيوب الفنية في سبيل تحقيق السبق التكنولوجيا

المحتوى محمي