كيف تنشئ نماذج الذكاء الاصطناعي مقاطع الفيديو؟ رحلة من النص إلى الصورة المتحركة

6 دقيقة
كيف تنشئ نماذج الذكاء الاصطناعي مقاطع الفيديو؟ رحلة من النص إلى الصورة المتحركة
مصدر الصورة: ستيفاني آرنيت/إم آي تي تكنولوجي ريفيو | أدوبي ستوك

كان العام الحالي حافلاً بالنسبة إلى توليد الفيديو. في الأشهر التسعة الماضية أعلنت شركة أوبن أيه آي إطلاق النموذج سورا (Sora)، وأطلقت شركة جوجل ديب مايند النموذج فيو 3 (Veo 3)، وأطلقت شركة الفيديو الناشئة رنواي النموذج جين-4 (Gen-4). وهي نماذج يمكنها جميعاً أن تنتج مقاطع فيديو من المستحيل (تقريباً) تمييزها عن اللقطات المصورة الفعلية أو الرسوم المتحركة المولدة بمساعدة الكمبيوتر. كما شهد هذا العام أيضاً إطلاق نتفليكس مؤثرات بصرية مولدة بالذكاء الاصطناعي في مسلسلها الذي حمل اسم "ذي إترنوت" (The Eternaut)، وهي المرة الأولى التي يستخدم فيها توليد الفيديو في إنتاج مقاطع فيديو في سوق الأعمال التلفزيونية.

مما لا شك فيه أن المقاطع التي تشاهدها في عروض الفيديو التوضيحية منتقاة بعناية لعرض نماذج الشركات كي تظهر في قمة تألقها. ولكن مع وجود هذه التكنولوجيا في أيدي عدد أكبر من المستخدمين أكثر من أي وقت مضى -فسورا وفيو 3 متاحان ضمن تطبيقات كل من تشات جي بي تي وجيميناي للمشتركين الذين يدفعون رسوماً شهرية أو سنوية- يمكن الآن حتى لأكثر صانعي الأفلام العاديين إخراج أعمال رائعة.

لكن الجانب السلبي هو أن صانعي المحتوى يتنافسون مع الفوضى الناجمة عن استخدام الذكاء الاصطناعي، وتمتلئ صفحات وسائل التواصل الاجتماعي بلقطات إخبارية مفبركة. كما أن توليد الفيديو يستهلك قدراً هائلاً من الطاقة، أضعاف ما يستهلكه توليد النصوص أو الصور.

مع انتشار مقاطع الفيديو المولدة بالذكاء الاصطناعي في كل مكان، دعونا نتوقف لحظة للتحدث عن التكنولوجيا التي تجعلها تخرج إلى النور.

اقرأ أيضاً: تعرّف إلى أدوات توليد الصور الواقعية ومقاطع الفيديو باستخدام فايرفلاي من أدوبي

كيف يمكنك إنشاء مقطع فيديو؟

لنفترض أنك مستخدم عادي. توجد الآن مجموعة من الأدوات المتطورة التي تسمح لصانعي الفيديو المحترفين بإدراج نماذج توليد الفيديو في سير عملهم. لكن معظم الناس يستخدمون هذه التكنولوجيا في تطبيقات أو عبر مواقع إلكترونية متخصصة. أنت تعرف الطريقة: "مرحباً يا جيميناي، اصنع لي فيديو يظهر فيه وحيد القرن وهو يأكل السباغيتي. والآن اجعل قرنه ينطلق كالصاروخ". ما ستحصل عليه سيكون إما ناجحاً وإما فاشلاً، وعادة ما ستحتاج إلى أن تطلب من النموذج تنفيذ محاولة أخرى أو 10 محاولات قبل أن تحصل على ما تريده تقريباً.

إذاً ما الذي يحدث في الكواليس التقنية؟ لماذا تكون المحاولة ناجحة أو فاشلة؟ ولماذا تستهلك العملية الكثير من الطاقة؟ تعرف الموجة الأخيرة من نماذج توليد الفيديو باسم محولات الانتشار الكامن. أعلم أن ما أقوله يمثل جرعة دسمة من المصطلحات. لذا دعونا نفكك كل جزء على حدة، بدءاً بالانتشار.

ما هو نموذج الانتشار؟

تخيل أنك التقطت صورة وأضفت إليها تناثراً عشوائياً من البكسلات. خذ تلك الصورة ذات البكسلات المتناثرة كرر ذلك مراراً وتكراراً. كرر ذلك مرات كافية وستتحول الصورة الأولية إلى فوضى عشوائية من البكسلات، مثل صورة ثابتة على جهاز تلفزيون قديم.

نموذج الانتشار هو شبكة عصبونية مدربة على عكس هذه العملية، بتحويل البيانات الثابتة العشوائية إلى صور. في أثناء التدريب، تعرض على النموذج ملايين الصور في مراحل مختلفة من عملية التبكسل. يتعلم النموذج كيفية تغير هذه الصور في كل مرة يجري فيها إضافة بكسلات جديدة، ومن ثم يتعلم كيفية التراجع عن هذه التغييرات.

والنتيجة هي أنك عندما تطلب من نموذج الانتشار توليد صورة، فسيبدأ بمجموعة عشوائية من البكسلات ثم يعمل على تحويل هذه الفوضى إلى صورة مشابهة إلى حد ما للصور الموجودة في مجموعة التدريب الخاصة به.

لكنك لا تريد أي صورة، بل تريد الصورة التي حددتها، وعادة ما تكون مصحوبة بأمر نصي. وهكذا يقرن نموذج الانتشار بنموذج ثان -مثل نموذج لغوي كبير مدرب على مطابقة الصور مع الأوصاف النصية- يوجه كل خطوة من خطوات عملية التنظيف، دافعاً نموذج الانتشار نحو الصور التي يعتبرها النموذج اللغوي الكبير مطابقة للأمر النصي بصورة جيدة.

اقرأ أيضاً: منصات توليد الفيديو بالذكاء الاصطناعي: أفضل 4 خيارات لصناع المحتوى

ملاحظة جانبية: لا يستخرج هذا النموذج اللغوي الكبير الروابط القائمة بين النص والصور من العدم. معظم نماذج تحويل النص إلى صورة ونماذج تحويل النص إلى فيديو اليوم مدربة على مجموعات بيانات ضخمة تحتوي على مليارات من أزواج النصوص والصور أو النصوص والفيديوهات المستقاة من الإنترنت (وهي ممارسة لا يرضى عنها الكثير من صانعي المحتوى). هذا يعني أن ما تحصل عليه من هذه النماذج هو خلاصة للعالم كما هو ممثل على الإنترنت، مشوهاً بالتحيز (والإباحية).

من الأسهل تخيل نماذج الانتشار تعمل مع الصور. ولكن يمكن استخدام هذه التكنولوجيا مع العديد من أنواع البيانات، بما في ذلك الصوت والفيديو. لتوليد مقاطع الأفلام، يجب أن يعمد نموذج الانتشار إلى تنظيف تسلسلات الصور -الإطارات المتتالية للفيديو- بدلاً من التعامل مع صورة واحدة فقط.

ما هو نموذج الانتشار الكامن؟

يتطلب هذا كله قدراً هائلاً من الحوسبة (أي قدراً هائلاً من الطاقة). لهذا السبب تستخدم معظم نماذج الانتشار المستخدمة في توليد الفيديو تقنية تسمى "الانتشار الكامن". بدلاً من معالجة البيانات الخام -ملايين البكسلات في كل إطار فيديو- يعمل النموذج ضمن فضاء يعرف باسم "الفضاء الكامن"، حيث يجري ضغط إطارات الفيديو (والأمر النصي) في رمز رياضي يلتقط فقط السمات الأساسية للبيانات ويتخلص من الباقي.

ثمة أمر مشابه يحدث عندما تبث مقطع فيديو عبر الإنترنت: حيث يجري إرسال مقطع الفيديو من الخادم إلى شاشتك بتنسيق مضغوط لجعله يصل إليك بسرعة أكبر، وعندما يصل، يعمل جهاز الكمبيوتر أو التلفزيون على تحويله مرة أخرى إلى مقطع فيديو قابل للمشاهدة.

وهكذا، فإن الخطوة الأخيرة هي فك ضغط البيانات التي أنتجتها عملية الانتشار الكامن. وبمجرد الانتهاء من تحويل الإطارات المضغوطة من الصور الثابتة العشوائية إلى إطارات مضغوطة لمقطع فيديو يعتبره دليل النماذج اللغوية الكبيرة مناسباً للأمر النصي للمستخدم، يجري تحويل الفيديو المضغوط إلى مقطع فيديو يمكنك مشاهدته.

مع الانتشار الكامن، تتبع عملية الانتشار بشكل أو بآخر أسلوباً مماثلاً لما تتبعه مع الصور. الفرق هو أن إطارات الفيديو المحولة إلى بكسلات تغدو الآن ترميزات رياضية لتلك الإطارات بدلاً من الإطارات نفسها. وهذا يجعل الانتشار الكامن أكفأ بكثير من نماذج الانتشار التقليدية. (ومع ذلك، لا يزال توليد الفيديو يستهلك طاقة أكبر من توليد الصور أو النصوص. ثمة قدر هائل من العمليات الحسابية المتضمنة)

ما هو محول الانتشار الكامن؟

أرجو أن تكون ما زلت قادراً على التركيز، فثمة قطعة أخرى من الأحجية، وهي كيفية التأكد من أن عملية الانتشار تنتج سلسلة من الإطارات المتسقة، مع الحفاظ على الأجسام والإضاءة وما إلى ذلك من إطار إلى آخر. وقد فعلت أوبن أيه آي ذلك مع سورا من خلال الجمع بين نموذج الانتشار ونوع آخر من النماذج يسمى المحول.

وقد أصبح هذا الآن معياراً قياسياً في الفيديو التوليدي.

تتميز المحولات بقدرتها الفائقة على معالجة التسلسلات الطويلة من البيانات، كالكلمات مثلاً. وهذا ما جعلها مكوناً سحرياً داخل النماذج اللغوية الكبيرة، مثل تشات جي بي تي 5 من أوبن أيه آي وجيميناي من جوجل ديب مايند، التي يمكنها توليد تسلسلات طويلة من الكلمات التي لها معنى، مع الحفاظ على الاتساق عبر عشرات الجمل.

لكن مقاطع الفيديو لا تتكون من كلمات. بل تقسم إلى إلى أجزاء صغيرة يمكن التعامل معها كما لو كانت كلمات. وقد ابتكرت أوبن أيه آي أسلوباً لتقطيع مقاطع الفيديو عبر المكان والزمان. يقول الباحث الرئيسي في مشروع سورا، تيم بروكس: "يبدو الأمر شبيهاً بتجميع إطارات الفيديو كلها وقصها إلى مكعبات صغيرة".

يساعد استخدام المحولات إلى جانب نماذج الانتشار على تحقيق العديد من المزايا. فبفضل تصميمها المخصص لمعالجة تسلسل البيانات، فإنها تساعد نموذج الانتشار أيضاً في الحفاظ على الاتساق عبر الإطارات في أثناء توليدها. وهذا يتيح، على سبيل المثال، إنتاج مقاطع فيديو لا تظهر فيها الأجسام وتختفي فجأة.

ولأن مقاطع الفيديو مجزأة، فإن حجمها واتجاهها غير مهمين. وهذا يعني أنه يمكن تدريب أحدث نماذج توليد الفيديو على مجموعة واسعة من أمثلة مقاطع الفيديو، بدءاً من المقاطع الرأسية القصيرة المصورة بالهاتف، وصولاً إلى الأفلام السينمائية ذات الشاشة العريضة. وقد أدى التنوع الكبير في بيانات التدريب إلى جعل توليد الفيديو أفضل بكثير مما كان عليه قبل عامين فقط. وهذا يعني أيضاً أنه يمكن الآن أن يطلب من نماذج توليد الفيديو إنتاج مقاطع فيديو بتنسيقات متنوعة.

اقرأ أيضاً: 5 أدوات للكشف عن الصور والفيديوهات المزيفة المولدة بالذكاء الاصطناعي

ماذا عن الصوت؟

من القدرات المتطورة الجديدة التي حققها النموذج فيو 3 هو أنه يولد الفيديو مع الصوت، بدءاً من الحوار المتزامن مع حركة الشفاه مروراً بالمؤثرات الصوتية وصولاً إلى ضوضاء الخلفية. وهذه سابقة في نماذج توليد الفيديو. وكما قال الرئيس التنفيذي لشركة جوجل ديب مايند، ديميس هاسابيس، في مؤتمر جوجل آي/أو لهذا العام: "نحن على وشك أن نودع عصر توليد الفيديو الصامت".

كان التحدي متمثلاً في إيجاد طريقة لتنسيق بيانات الفيديو والصوت بحيث تعمل عملية النشر على كليهما في الوقت نفسه. كان الإنجاز الذي حققته شركة جوجل ديب مايند هو ابتكارها طريقة جديدة لضغط الصوت والفيديو في جزء واحد من البيانات داخل نموذج الانتشار. عندما يولد فيو 3 مقطع فيديو، ينتج نموذج الانتشار الخاص به الصوت والفيديو معاً في خضم عملية متناسقة، ما يضمن مزامنة الصوت والصور.

قلت إن نماذج الانتشار يمكنها توليد أنواع مختلفة من البيانات: هل هذه هي الطريقة التي تعمل بها النماذج اللغوية الكبيرة أيضاً؟

لا، أو على الأقل ليس بعد. غالباً ما تستخدم نماذج الانتشار لتوليد الصور والفيديو والصوت. أما النماذج اللغوية الكبيرة -التي تولد نصوصاً (بما في ذلك التعليمات البرمجية للكمبيوتر)- فتبنى باستخدام المحولات. لكن الحدود الفاصلة غير واضحة. لقد رأينا كيف تدمج المحولات الآن مع نماذج الانتشار لتوليد مقاطع الفيديو. وفي صيف هذا العام، كشفت جوجل ديب مايند عن عملها على بناء نموذج لغوي تجريبي كبير يستخدم نماذج الانتشار بدلاً من المحولات لتوليد النص.

هنا تبدأ الأمور بالالتباس: فعلى الرغم من أن توليد الفيديو (الذي يستخدم نماذج الانتشار) يستهلك الكثير من الطاقة، فإن نماذج الانتشار نفسها أكثر كفاءة من المحولات. ومن ثم، من خلال استخدام نموذج الانتشار بدلاً من المحولات لتوليد النصوص، يمكن أن يكون نموذج الانتشار من جوجل ديب مايند الجديد أكفأ بكثير من نماذج الانتشار الحالية. نتوقع رؤية المزيد من نماذج الانتشار في المستقبل القريب!

المحتوى محمي