بنت شركة أوبن أيه آي (OpenAI) نموذجاً جديداً مذهلاً لتوليد الفيديو وأطلقت عليه اسم "سورا " (Sora)، ويستطيع هذا النموذج تحويل توصيف نصي قصير إلى فيلم مفصل وعالي الدقة ويصل طوله إلى دقيقة واحدة.
بعد الاطلاع على عينات الفيديو الأربع التي كشفت عنها أوبن أيه آي لمجلة إم آي تي تكنولوجي ريفيو، يبدو أن الشركة التي تتخذ مدينة سان فرانسيسكو مقراً لها تمكنت من الانتقال إلى مستوى جديد فيما يتعلق بتحويل النصوص إلى فيديو؛ وهو أحد المجالات البحثية الجديدة التي تثير الكثير من الاهتمام الذي أشرنا إليه على أنه توجه تنبغي مراقبته في 2024.
خطوة مهمة في مستقبل أنظمة الذكاء الاصطناعي
يقول العالِم في أوبن أيه آي، تيم بروكس: "نعتقد أن بناء النماذج القادرة على فهم الفيديو، وفهم هذه التفاعلات المعقدة للغاية في عالمنا جميعاً، يعد خطوة مهمة نحو مستقبل أنظمة الذكاء الاصطناعي".
لكن، ثمة نقطة تستحق التنبيه تتعلق بإخلاء المسؤولية. فقد قدمت لنا أوبن أيه آي عرضاً أولياً لنموذج سورا (يعني هذا الاسم باللغة اليابانية "السماء") في إطار شروط تفرض درجة عالية من السرية المشددة. اتخذت الشركة إجراء غير اعتيادي؛ حيث اشترطت أن تقبل بالإفصاح عن معلومات حول سورا فقط في حال موافقتنا على الانتظار حتى تنشره للعامة للحصول على آراء الخبراء الخارجيين حوله. لم تنشر أوبن أيه آي تقريراً تقنياً حول النموذج، ولم تقدم عرضاً يوضح أنه يعمل فعلياً. وتقول الشركة إنها لن تطلق سورا قريباً.
ظهرت أولى النماذج التوليدية التي تستطيع إنتاج الفيديو من المقاطع النصية الصغيرة في أواخر عام 2024. لكن العينات الأولى التي طرحتها ميتا (Meta) وجوجل والشركة الناشئة رانواي (Runway) كانت مليئة بالأخطاء واللطخات. غير أن هذه التكنولوجيا حققت تقدماً سريعاً منذ ذلك الحين، فقد أطلقت رانواي العام الماضي نموذج جين 2 (Gen-2) الذي يستطيع إنتاج مقاطع فيديو قصيرة تكاد تضاهي من حيث الجودة أفلام استوديوهات الرسوم المتحركة الكبرى. لكن طول معظم هذه الأمثلة لا يتجاوز عدة ثوانٍ وحسب.
اقرأ أيضاً: التوائم الرقمية للبشر تغزو العالم مدعومة بالذكاء الاصطناعي
ما الذي يميز نموذج "سورا" لتوليد الفيديو؟
تتميز عينات الفيديو من نموذج سورا الذي بنته أوبن أيه آي بالدقة العالية والغنى بالتفاصيل. تقول أوبن أيه آي أيضاً إنها تستطيع توليد مقاطع فيديو يصل طول المقطع الواحد منها إلى دقيقة واحدة. يبين مقطع فيديو لشارع في طوكيو أن سورا تعلّم كيفية تفاعل الأجسام ضمن بيئة ثلاثية الأبعاد؛ حيث تدخل الكاميرا بحركة انسيابية إلى المشهد حتى تتبع شخصين يسيران أمام صف من المتاجر.
تزعم أوبن أيه آي أيضاً أن سورا يتعامل مع معضلة حجب الأجسام على نحو جيد. من المشكلات التي تعانيها النماذج الحالية إخفاقها أحياناً في تتبع الأجسام بعد اختفائها من المشهد. على سبيل المثال؛ إذا مرت شاحنة أمام إشارة مرورية، فقد لا تظهر الإشارة ثانية بعد مرور الشاحنة.
في مقطع فيديو لمشهد تحت الماء من الأشغال الورقية، أضاف سورا ما يشبه التقطيعات بين الأجزاء المختلفة من المقطع، وقد حافظ النموذج على اتساق التصميم بين هذه الأجزاء
لكنه ليس خالياً من العيوب. ففي مقطع الفيديو في طوكيو، تبدو السيارات على الجهة اليسرى أصغر حجماً من الأشخاص الذين يسيرون إلى جانبها، علاوة على أنها تظهر وتختفي فجأة من بين أغصان الأشجار. يقول بروكس: "ما زال النموذج دون شك في حاجة إلى المزيد من العمل فيما يتعلق باتساق المشهد على المدى الطويل. فعلى سبيل المثال؛ لن يعود الشخص إلى المشهد إن غاب عنه فترة طويلة، ويبدو أن النموذج ينسى أن هذا الشخص يجب أن يكون موجوداً في المشهد".
اقرأ أيضاً: لماذا لا تتوقف خوارزميات يوتيوب عن عرض فيديوهات سبق لك رفض مثيلاتها من قبل؟
عرض تشويقي تقني
كانت عينات الفيديو رائعة ومثيرة للإعجاب؛ غير أنها كانت بلا شك منتقاة بعناية حتى تعبّر عن أفضل أداء لنموذج سورا. ومن دون أي معلومات إضافية، سيكون من الصعب تحديد مدى تعبير هذه العينات عن المستوى الاعتيادي لأداء النموذج،
وقد نضطر إلى الانتظار بعض الوقت قبل أن نعرف. يمثل إعلان أوبن أيه آي هذا عرضاً تشويقياً تقنياً، وتقول الشركة إنها لا تخطط حالياً لإطلاق النموذج للجمهور. وبدلاً من ذلك، ستبدأ أوبن أيه آي إتاحة النموذج لمختصي الاختبارات المتعلقة بالسلامة من أطراف خارجية للمرة الأولى.
تشعر الشركة بالقلق على وجه الخصوص إزاء إمكانية إساءة استخدام النموذج من خلال إنتاج مقاطع فيديو مزيفة لكنها توحي بأنها واقعية. يقول العالم في أوبن أيه آي، أديتيا راميش، الذي صمم نموذج الشركة المسمى "دال-إي" (DALL-E) لتحويل النصوص إلى صور: "نحن نتعامل بحرص شديد مع مسألة إطلاق النموذج، ونحرص على التأكد من كل شيء قبل وضع النموذج في متناول الجمهور".
لكن أوبن أيه آي تدرس إطلاق منتج يتعلق بهذا النموذج في وقت لاحق. قررت الشركة، إضافة إلى مختصي اختبارات السلامة، أن تتيح النموذج لمجموعة مختارة من منتجي الفيديو والفنانين، للحصول على آرائهم وملاحظاتهم حول كيفية جعل سورا مفيداً قدر الإمكان للمحترفين في المجال الإبداعي. يقول راميش: "الهدف الآخر هو توضيح آفاق هذا المجال للجميع، وتقديم لمحة مسبقة حول قدرات هذه النماذج".
اعتمد الفريق الذي بنى سورا على تعديل التكنولوجيا المستخدمة في بناء دال-إي 3 (DALL-E 3)؛ وهو أحدث إصدار من نموذج أوبن أيه آي الرائد لتحويل النصوص إلى صور. يعتمد دال-إي 3 على ما يعرف باسم "نموذج الانتشار" على غرار معظم نماذج تحويل النصوص إلى صور. تُدَرب هذه النماذج على تحويل مجموعة مختلطة من البيكسلات العشوائية إلى صورة.
يعتمد سورا على هذا الأسلوب، ويطبقه على مقاطع الفيديو بدلاً من الصور الساكنة. لكن الباحثين أضافوا تقنية أخرى أيضاً إلى هذا النموذج، فعلى عكس دال-إي أو معظم نماذج الفيديو التوليدية، يجمع سورا نموذج الانتشار مع نوع من الشبكات العصبونية يُسمى "المحول".
تتميز المحولات بقدرة كبيرة على معالجة سلاسل البيانات الطويلة؛ مثل الكلمات. أدت هذه الميزة إلى جعل المحولات عنصراً خاصاً في النماذج اللغوية الكبيرة؛ مثل جي بي تي 4 (GPT-4) من أوبن أيه آي، وجيميني (Gemini) من جوجل ديب مايند (Google DeepMind)؛ لكن مقاطع الفيديو ليست مكونة من الكلمات. وبدلاً من ذلك، اضطر الباحثون إلى إيجاد طريقة لتقطيع مقاطع الفيديو إلى كتل تُمكن معالجتها مثل الكلمات. ويعتمد الأسلوب الذي توصلوا إليه على تقسيم مقاطع الفيديو وفق الأبعاد المكانية والزمنية. يقول بروكس: "تشبه هذه الطريقة تكديس لقطات الفيديو جميعها واقتطاع مكعبات صغيرة منها".
بعد ذلك، تستطيع المحولات ضمن سورا معالجة هذه الكتل من بيانات الفيديو وفق الطريقة نفسها تقريباً التي تتبعها المحولات الكامنة في النماذج اللغوية الكبيرة في معالجة الكلمات ضمن كتلة نصية. يقول الباحثون إن هذه الطريقة تتيح لهم تدريب سورا على عدد أكبر بكثير من أنواع الفيديو بالمقارنة مع نماذج أخرى لتحويل النصوص إلى فيديو؛ بما فيها درجات مختلفة من الدقة، وفترات مختلفة، ونسب أبعاد عرض مختلفة، وطرائق عرض مختلفة. يقول بروكس: "هذا مفيد جداً للنموذج، وهو شيء لم يُطبق في أي عمل سابق وفقاً لما وجدناه".
اقرأ أيضاً: هل يهددنا الذكاء الاصطناعي بذكائه أم أنها رومانسيتنا وغباؤه؟
مخاطر مرتَقبة
تدرك أوبن أيه آي جيداً المخاطر المقترنة بنموذج الفيديو التوليدي. شهدنا سابقاً عدة حالات واسعة النطاق لإساءة استخدام الصور العميقة التزييف، ومن المؤكد أن مقاطع الفيديو الواقعية ستنقل المشكلة إلى مستوى أعلى.
يخطط الفريق للاعتماد على اختبارات السلامة التي طبقها العام الماضي على دال-إي 3. يتضمن سورا حالياً فلتراً يطبَّق على الأوامر النصية التي تُقدم إلى النموذج جميعها، ويعمل على حظر أوامر إنتاج الصور التي تتضمن محتوى عنيفاً أو جنسياً أو يحرض على الكراهية، إضافة إلى صور المشاهير. يتولى فلتر آخر التحقق من لقطات مقاطع الفيديو التي يولدها النموذج، ويحظر المواد التي تنتهك سياسات السلامة التي تعتمدها أوبن أيه آي.
تعمل أوبن أيه آي أيضاً على تعديل كاشف الصور المزيفة الذي طورته من أجل دال-إي 3 لاستخدامه في سورا. وستعمل الشركة على دمج وسوم المعيار سي 2 بي أيه (C2PA) المعتمد في مجال الذكاء الاصطناعي، وهي بيانات وصفية توضح كيفية توليد الصورة، في المحتوى الناتج عن سورا كله. لكن هذه الخطوات ليست مضمونة النتائج على الإطلاق، فكواشف الصور المزيفة لا تعمل على الدوام. أما البيانات الوصفية فهي قابلة للإزالة بسهولة، علاوة على أن معظم مواقع التواصل الاجتماعي تعمل افتراضياً على تجريد الصور التي تُرفع إليها من بياناتها الوصفية.
اقرأ أيضاً: لعبة ذكاء اصطناعي من ديب مايند تحطم رقماً قياسياً عمره 50 عاماً
يقول راميش: "سنحتاج بالتأكيد إلى الحصول على المزيد من الملاحظات وإلى تعلم المزيد حول أنواع المخاطر التي يجب أن نأخذها بعين الاعتبار في مجال الفيديو قبل أن يصبح إطلاق هذا النموذج خياراً منطقياً ومقبولاً".
يتفق بروكس مع وجهة النظر هذه، ويقول: "من الأسباب التي تدعونا إلى التحدث عن هذا البحث الآن جمع الآراء والملاحظات التي نحتاج إليها للسعي إلى تحديد أفضل الطرائق لإطلاق هذا النموذج على نحو آمن".