إليك ما يجب أن تعرفه عن نموذج توليد الفيديو من أوبن أيه آي "سورا"

بنت شركة أوبن أيه آي (OpenAI) نموذجاً جديداً مذهلاً لتوليد الفيديو وأطلقت عليه اسم "سورا " (Sora)، ويستطيع هذا النموذج تحويل توصيف نصي قصير إلى فيلم مفصل وعالي الدقة ويصل طوله إلى دقيقة واحدة.

بعد الاطلاع على عينات الفيديو الأربع التي كشفت عنها أوبن أيه آي لمجلة إم آي تي تكنولوجي ريفيو، يبدو أن الشركة التي تتخذ مدينة سان فرانسيسكو مقراً لها تمكنت من الانتقال إلى مستوى جديد فيما يتعلق بتحويل النصوص إلى فيديو؛ وهو أحد المجالات البحثية الجديدة التي تثير الكثير من الاهتمام الذي أشرنا إليه على أنه توجه تنبغي مراقبته في 2024.

خطوة مهمة في مستقبل أنظمة الذكاء الاصطناعي

يقول العالِم في أوبن أيه آي، تيم بروكس: "نعتقد أن بناء النماذج القادرة على فهم الفيديو، وفهم هذه التفاعلات المعقدة للغاية في عالمنا جميعاً، يعد خطوة مهمة نحو مستقبل أنظمة الذكاء الاصطناعي".

لكن، ثمة نقطة تستحق التنبيه تتعلق بإخلاء المسؤولية. فقد قدمت لنا أوبن أيه آي عرضاً أولياً لنموذج سورا (يعني هذا الاسم باللغة اليابانية "السماء") في إطار شروط تفرض درجة عالية من السرية المشددة. اتخذت الشركة إجراء غير اعتيادي؛ حيث اشترطت أن تقبل بالإفصاح عن معلومات حول سورا فقط في حال موافقتنا على الانتظار حتى تنشره للعامة للحصول على آراء الخبراء الخارجيين حوله. لم تنشر أوبن أيه آي تقريراً تقنياً حول النموذج، ولم تقدم عرضاً يوضح أنه يعمل فعلياً. وتقول الشركة إنها لن تطلق سورا قريباً.

أمر نصي: "animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image" (مشهد رسوم متحركة يتضمن لقطة قريبة لوحش صغير أزغب يركع قرب شمعة حمراء ذائبة. الأسلوب الفني يتسم بطابع ثلاثي الأبعاد وواقعي، مع عناية خاصة بالإضاءة وطبيعة السطوح. يجب أن يحمل الرسم ملامح الاندهاش والفضول؛ حيث يحدق الوحش باللهب بعينين مفتوحتين على اتساعهما وفم مفتوح. تعطي وضعيته وتعابير وجهه طابعاً يجمع بين البراءة والمرح؛ كأنه يستكشف العالم المحيط به للمرة الأولى. يتيح استخدام الألوان الدافئة والإضاءة المعبرة تعزيز الجو المريح للصورة). (المصدر: أوبن أيه آي)

أمر نصي: "a gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures" (عالم رائع مصمم بالأشغال الورقية بهيئة حيد مرجاني، مع الكثير من الأسماك والمخلوقات البحرية الملونة). (المصدر: أوبن أيه آي)

ظهرت أولى النماذج التوليدية التي تستطيع إنتاج الفيديو من المقاطع النصية الصغيرة في أواخر عام 2024. لكن العينات الأولى التي طرحتها ميتا (Meta) وجوجل والشركة الناشئة رانواي (Runway) كانت مليئة بالأخطاء واللطخات. غير أن هذه التكنولوجيا حققت تقدماً سريعاً منذ ذلك الحين، فقد أطلقت رانواي العام الماضي نموذج جين 2 (Gen-2) الذي يستطيع إنتاج مقاطع فيديو قصيرة تكاد تضاهي من حيث الجودة أفلام استوديوهات الرسوم المتحركة الكبرى. لكن طول معظم هذه الأمثلة لا يتجاوز عدة ثوانٍ وحسب.

ما الذي يميز نموذج "سورا" لتوليد الفيديو؟

تتميز عينات الفيديو من نموذج سورا الذي بنته أوبن أيه آي بالدقة العالية والغنى بالتفاصيل. تقول أوبن أيه آي أيضاً إنها تستطيع توليد مقاطع فيديو يصل طول المقطع الواحد منها إلى دقيقة واحدة. يبين مقطع فيديو لشارع في طوكيو أن سورا تعلّم كيفية تفاعل الأجسام ضمن بيئة ثلاثية الأبعاد؛ حيث تدخل الكاميرا بحركة انسيابية إلى المشهد حتى تتبع شخصين يسيران أمام صف من المتاجر.

تزعم أوبن أيه آي أيضاً أن سورا يتعامل مع معضلة حجب الأجسام على نحو جيد. من المشكلات التي تعانيها النماذج الحالية إخفاقها أحياناً في تتبع الأجسام بعد اختفائها من المشهد. على سبيل المثال؛ إذا مرت شاحنة أمام إشارة مرورية، فقد لا تظهر الإشارة ثانية بعد مرور الشاحنة.

في مقطع فيديو لمشهد تحت الماء من الأشغال الورقية، أضاف سورا ما يشبه التقطيعات بين الأجزاء المختلفة من المقطع، وقد حافظ النموذج على اتساق التصميم بين هذه الأجزاء

لكنه ليس خالياً من العيوب. ففي مقطع الفيديو في طوكيو، تبدو السيارات على الجهة اليسرى أصغر حجماً من الأشخاص الذين يسيرون إلى جانبها، علاوة على أنها تظهر وتختفي فجأة من بين أغصان الأشجار. يقول بروكس: "ما زال النموذج دون شك في حاجة إلى المزيد من العمل فيما يتعلق باتساق المشهد على المدى الطويل. فعلى سبيل المثال؛ لن يعود الشخص إلى المشهد إن غاب عنه فترة طويلة، ويبدو أن النموذج ينسى أن هذا الشخص يجب أن يكون موجوداً في المشهد".

عرض تشويقي تقني

كانت عينات الفيديو رائعة ومثيرة للإعجاب؛ غير أنها كانت بلا شك منتقاة بعناية حتى تعبّر عن أفضل أداء لنموذج سورا. ومن دون أي معلومات إضافية، سيكون من الصعب تحديد مدى تعبير هذه العينات عن المستوى الاعتيادي لأداء النموذج،

وقد نضطر إلى الانتظار بعض الوقت قبل أن نعرف. يمثل إعلان أوبن أيه آي هذا عرضاً تشويقياً تقنياً، وتقول الشركة إنها لا تخطط حالياً لإطلاق النموذج للجمهور. وبدلاً من ذلك، ستبدأ أوبن أيه آي إتاحة النموذج لمختصي الاختبارات المتعلقة بالسلامة من أطراف خارجية للمرة الأولى.

تشعر الشركة بالقلق على وجه الخصوص إزاء إمكانية إساءة استخدام النموذج من خلال إنتاج مقاطع فيديو مزيفة لكنها توحي بأنها واقعية. يقول العالم في أوبن أيه آي، أديتيا راميش، الذي صمم نموذج الشركة المسمى "دال-إي" (DALL-E) لتحويل النصوص إلى صور: "نحن نتعامل بحرص شديد مع مسألة إطلاق النموذج، ونحرص على التأكد من كل شيء قبل وضع النموذج في متناول الجمهور".

لكن أوبن أيه آي تدرس إطلاق منتج يتعلق بهذا النموذج في وقت لاحق. قررت الشركة، إضافة إلى مختصي اختبارات السلامة، أن تتيح النموذج لمجموعة مختارة من منتجي الفيديو والفنانين، للحصول على آرائهم وملاحظاتهم حول كيفية جعل سورا مفيداً قدر الإمكان للمحترفين في المجال الإبداعي. يقول راميش: "الهدف الآخر هو توضيح آفاق هذا المجال للجميع، وتقديم لمحة مسبقة حول قدرات هذه النماذج".

اعتمد الفريق الذي بنى سورا على تعديل التكنولوجيا المستخدمة في بناء دال-إي 3 (DALL-E 3)؛ وهو أحدث إصدار من نموذج أوبن أيه آي الرائد لتحويل النصوص إلى صور. يعتمد دال-إي 3 على ما يعرف باسم "نموذج الانتشار" على غرار معظم نماذج تحويل النصوص إلى صور. تُدَرب هذه النماذج على تحويل مجموعة مختلطة من البيكسلات العشوائية إلى صورة.

يعتمد سورا على هذا الأسلوب، ويطبقه على مقاطع الفيديو بدلاً من الصور الساكنة. لكن الباحثين أضافوا تقنية أخرى أيضاً إلى هذا النموذج، فعلى عكس دال-إي أو معظم نماذج الفيديو التوليدية، يجمع سورا نموذج الانتشار مع نوع من الشبكات العصبونية يُسمى "المحول".

تتميز المحولات بقدرة كبيرة على معالجة سلاسل البيانات الطويلة؛ مثل الكلمات. أدت هذه الميزة إلى جعل المحولات عنصراً خاصاً في النماذج اللغوية الكبيرة؛ مثل جي بي تي 4 (GPT-4) من أوبن أيه آي، وجيميني (Gemini) من جوجل ديب مايند (Google DeepMind)؛ لكن مقاطع الفيديو ليست مكونة من الكلمات. وبدلاً من ذلك، اضطر الباحثون إلى إيجاد طريقة لتقطيع مقاطع الفيديو إلى كتل تُمكن معالجتها مثل الكلمات. ويعتمد الأسلوب الذي توصلوا إليه على تقسيم مقاطع الفيديو وفق الأبعاد المكانية والزمنية. يقول بروكس: "تشبه هذه الطريقة تكديس لقطات الفيديو جميعها واقتطاع مكعبات صغيرة منها".

بعد ذلك، تستطيع المحولات ضمن سورا معالجة هذه الكتل من بيانات الفيديو وفق الطريقة نفسها تقريباً التي تتبعها المحولات الكامنة في النماذج اللغوية الكبيرة في معالجة الكلمات ضمن كتلة نصية. يقول الباحثون إن هذه الطريقة تتيح لهم تدريب سورا على عدد أكبر بكثير من أنواع الفيديو بالمقارنة مع نماذج أخرى لتحويل النصوص إلى فيديو؛ بما فيها درجات مختلفة من الدقة، وفترات مختلفة، ونسب أبعاد عرض مختلفة، وطرائق عرض مختلفة. يقول بروكس: "هذا مفيد جداً للنموذج، وهو شيء لم يُطبق في أي عمل سابق وفقاً لما وجدناه".

أمر نصي: " several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field" (مجموعة من حيوانات الماموث الصوفي الضخم تقترب عابرة مرجاً مغطى بالثلوج، ويتحرك فراؤها الصوفي الطويل بخفة مع الرياح في أثناء سيرها، والثلج يغطي الأشجار مع مشهد خلاب للجبال المكسوة بالثلوج على مسافة بعيدة، وسط إضاءة فترة ما بعد الظهر مع غيوم خفيفة ووهج دافئ للشمس العالية في كبد السماء. تلتقط الكاميرا المنخفضة لقطة رائعة للثدييات الضخمة المكسوة بالفراء مع تصوير فوتوغرافي جذاب وحقل بصري عميق). (المصدر: أوبن أيه آي)

أمر نصي: "Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes" (مشهد جميل لمدينة طوكيو التي تغطيها الثلوج وتضج بالحيوية. تتحرك الكاميرا عبر شارع يضج بالحركة في المدينة، وتتبع عدة أشخاص يستمتعون بيوم جميل من الطقس المثلج، ويتسوقون أمام الأكشاك القريبة. تتطاير بتلات أزهار الكرز الرائعة في مهب الريح مع نُدف الثلج. (المصدر: أوبن أيه آي)

مخاطر مرتَقبة

تدرك أوبن أيه آي جيداً المخاطر المقترنة بنموذج الفيديو التوليدي. شهدنا سابقاً عدة حالات واسعة النطاق لإساءة استخدام الصور العميقة التزييف، ومن المؤكد أن مقاطع الفيديو الواقعية ستنقل المشكلة إلى مستوى أعلى.

يخطط الفريق للاعتماد على اختبارات السلامة التي طبقها العام الماضي على دال-إي 3. يتضمن سورا حالياً فلتراً يطبَّق على الأوامر النصية التي تُقدم إلى النموذج جميعها، ويعمل على حظر أوامر إنتاج الصور التي تتضمن محتوى عنيفاً أو جنسياً أو يحرض على الكراهية، إضافة إلى صور المشاهير. يتولى فلتر آخر التحقق من لقطات مقاطع الفيديو التي يولدها النموذج، ويحظر المواد التي تنتهك سياسات السلامة التي تعتمدها أوبن أيه آي.

تعمل أوبن أيه آي أيضاً على تعديل كاشف الصور المزيفة الذي طورته من أجل دال-إي 3 لاستخدامه في سورا. وستعمل الشركة على دمج وسوم المعيار سي 2 بي أيه (C2PA) المعتمد في مجال الذكاء الاصطناعي، وهي بيانات وصفية توضح كيفية توليد الصورة، في المحتوى الناتج عن سورا كله. لكن هذه الخطوات ليست مضمونة النتائج على الإطلاق، فكواشف الصور المزيفة لا تعمل على الدوام. أما البيانات الوصفية فهي قابلة للإزالة بسهولة، علاوة على أن معظم مواقع التواصل الاجتماعي تعمل افتراضياً على تجريد الصور التي تُرفع إليها من بياناتها الوصفية.

يقول راميش: "سنحتاج بالتأكيد إلى الحصول على المزيد من الملاحظات وإلى تعلم المزيد حول أنواع المخاطر التي يجب أن نأخذها بعين الاعتبار في مجال الفيديو قبل أن يصبح إطلاق هذا النموذج خياراً منطقياً ومقبولاً".

يتفق بروكس مع وجهة النظر هذه، ويقول: "من الأسباب التي تدعونا إلى التحدث عن هذا البحث الآن جمع الآراء والملاحظات التي نحتاج إليها للسعي إلى تحديد أفضل الطرائق لإطلاق هذا النموذج على نحو آمن".

إليك ما يجب أن تعرفه عن نموذج توليد الفيديو من أوبن أيه آي “سورا”

خطوة مهمة في مستقبل أنظمة الذكاء الاصطناعي

ما الذي يميز نموذج "سورا" لتوليد الفيديو؟

عرض تشويقي تقني

مخاطر مرتَقبة