منصات توليد الفيديو بالذكاء الاصطناعي: أفضل 4 خيارات لصناع المحتوى

5 دقيقة
منصات توليد الفيديو بالذكاء الاصطناعي: أفضل 4 خيارات لصناع المحتوى
حقوق الصورة: Shutterstock.com/metamorworks

على الرغم من أن تقنيات توليد الفيديو بالذكاء الاصطناعي ظهرت متأخرة نسبياً مقارنة بتقنيات توليد النصوص والصور والصوتيات، فإنها تمكنت خلال فترة وجيزة من الانتشار سريعاً على مختلف منصات التواصل الاجتماعي ووسائل الإعلام، بل وبدأت تجد طريقها إلى صناعة السينما. وفي غضون أشهر قليلة، تحولت هذه التقنية إلى ساحة منافسة قوية بين الشركات الناشئة والكبرى، حيث طورت كل منها أدوات قادرة على توليد مختلف أنواع مقاطع الفيديو انطلاقاً من أوصاف نصية أو صور ثابتة، مع توفير مشاهد واقعية وحركات طبيعية وإمكانات إبداعية متقدمة.

في هذه المقالة نستعرض 4 من المنصات والنماذج الحديثة في مجال توليد الفيديو بالذكاء الاصطناعي، مع توضيح ميزات كل منها وعيوبها. ومع ذلك، ينبغي الإشارة إلى أن هذه القائمة قد تتغير سريعاً نظراً لتوالي ظهور أدوات جديدة والوتيرة المتسارعة التي تتطور بها هذه التقنية مقارنة ببقية أدوات الذكاء الاصطناعي التوليدي.

1- "جوجل فيو 3": الخيار الأبرز لصناع المحتوى

في الوقت الذي يعد فيه بوت الدردشة "تشات جي بي تي" الذي طورته شركة "أوبن أيه آي" الاسم الأبرز في عالم الذكاء الاصطناعي المخصص لتوليد النصوص، يبدو المشهد مختلفاً تماماً في ميدان توليد الفيديو، فنموذج جوجل فيو 3 (Google Veo 3) يبرز باعتباره القوة المهيمنة. ومنذ إطلاقه على يد فريق "جوجل ديب مايند" في شهر مايو الماضي، جذب الأنظار بسرعة بفضل قدرته على إنتاج مقاطع فيديو عالية الجودة تصل مدتها إلى 8 ثوانٍ، مع دمج الأصوات بشكل متناسق وطبيعي داخل المشهد.

بعبارة أخرى، ما يميز "فيو 3" أنه لا يقتصر على الصورة فقط، بل ينشئ تلقائياً المؤثرات الصوتية والضوضاء الخلفية وحتى أصوات الشخصيات وكأنها حقيقية، ليمنح المستخدم تجربة متكاملة دون الحاجة إلى أدوات إضافية. وتؤكد جوجل أن هذا النموذج يقدم أفضل مخرجات في فئته، إذ يجمع بين الدقة البصرية والالتزام بالوصف النصي المدخل، ودعم دقة عرض فائقة (4K) لمزيد من الوضوح والواقعية.

هذه الميزات جعلت "فيو 3" الأداة المفضلة لدى صناع المحتوى في الأشهر الأخيرة. ومعظم مقاطع الفيديو التي انتشرت مؤخراً على وسائل التواصل الاجتماعي، لا سيما تلك التي تتضمن مشاهد قصصية سريعة بجودة سينمائية ويتحدث فيها الأشخاص مع بعضهم بعضاً (حتى باللغة العربية) أنتجت باستخدام هذا النموذج. ومن المرجح أن سبب شهرة "فيو 3" السريعة هو أن جوجل أتاحت بعض مزاياه بشكل مجاني للطلاب لفترة محدودة.

ولكن على الرغم من الواقعية العالية وميزة توليد الأصوات التي تميز هذا النموذج عن العديد من النماذج الأخرى التي تنتج مقاطع فيديو صامتة، فإن استخدامه ما زال مقيداً بعدة جوانب؛ أولها أنه مقيد حالياً بزمن قصير للفيديو، ما يجعله أكثر ملاءمة للمقاطع السريعة والمشاهد القصيرة فقط.

كذلك، فإن الوصول إلى كامل قدرات "فيو 3" ليس متاحاً مجاناً، بل يتطلب الاشتراك في خطط مدفوعة مثل "جيميناي برو" أو "جيميناي ألترا". وحتى مع الاشتراك، يعتمد الاستخدام على ما يسمى برصيد الذكاء الاصطناعي الذي يُستهلك بسرعة. فعلى سبيل المثال، يحتاج إنتاج مقطع واحد بجودة "فيو 3 كواليتي" إلى 100 وحدة من الرصيد، في حين أن خطة "برو" لا توفر سوى 1000 وحدة شهرياً. وهذا يعني أن أقصى ما يمكن للمستخدم توليده هو 10 مقاطع عالية الجودة فقط، أو ما يصل إلى 50 مقطعاً بجودة متوسطة خلال الشهر.

اقرأ أيضاً: تعرّف إلى أدوات توليد الصور الواقعية ومقاطع الفيديو باستخدام فايرفلاي من أدوبي

2- "وان 2.2": نموذج مفتوح المصدر ينافس الأدوات التجارية

يعتبر نموذج وان 2.2 (Wan2.2) واحداً من أقوى النماذج مفتوحة المصدر في مجال توليد الفيديو بالذكاء الاصطناعي. طورت شركة "علي بابا" الصينية هذا النموذج كجزء من منصتها الإبداعية للذكاء الاصطناعي، حيث يتيح إنشاء مقاطع الفيديو انطلاقاً من النصوص أو تحويل الصور الثابتة إلى مشاهد متحركة، مع دعم دقة تصل إلى 720 بيكسل وبمعدل 24 إطاراً في الثانية.

ثمة العديد من المزايا التي يتمتع بها هذا النموذج، أبرزها أنه مفتوح المصدر، ما يمنح المستخدمين أصحاب الخبرة التقنية إمكانية تشغيله محلياً إذا توفر لديهم العتاد المناسب. كما توفر "علي بابا" إمكانات هذا النموذج الكاملة عبر واجهة استخدام بسيطة، متاحة سواء باستخدام رصيد أو من دون رصيد على منصة "وان".

ولتشجيع المستخدمين الجدد، تتيح المنصة إمكانية التسجيل عبر البريد الإلكتروني للحصول على رصيد مجاني يومي قدره 50 وحدة، تكفي لإنتاج 5 مقاطع فيديو. وحتى في حال استنفاد هذا الرصيد، يمكن الاستمرار في استخدام النموذج، لكن مع زمن انتظار أطول قد يصل إلى عدة ساعات.

وعلى الرغم من كونه متاحاً مجاناً، فإن جودة الفيديو الذي ينتجه "وان 2.2" مرتفعة للغاية، وتكاد تضاهي ما توفره النماذج التجارية المغلقة، الأمر الذي يجعله خياراً عملياً بديلاً للمنصات المدفوعة، كما يتميز النموذج بمرونة كبيرة في طرق الاستخدام، حيث يمكنه توليد الفيديو مباشرة من النصوص، أو اعتماد صورة لتكون الإطار الأول في المقطع، أو حتى الجمع بين صورتين للإطارين الأول والأخير لتحديد مسار المشهد. كذلك يمكنه العمل انطلاقاً من صورة مرجعية واحدة فقط، مع إمكانية دمج المؤثرات الصوتية بشكل مباشر داخل الفيديو الناتج.

3- كلينغ 2.1: جودة عالية بتكلفة معقولة

يعد نموذج كلينغ 2.1 (Kling 2.1) من أكثر النماذج تطوراً في مجال توليد الفيديو بالذكاء الاصطناعي. وقد اكتسب سمعة بارزة بسبب تركيزه على إنتاج صور فائقة الجودة وحركات طبيعية سلسة، مع الحفاظ على ترابط المشاهد وتماسكها بشكل واقعي. ويلبي هذا النموذج، الذي طورته شركة "كوايشو" الصينية، متطلبات المسوقين وصناع الأفلام.

ويعد "كلينغ 2.1" الإصدار الأحدث في سلسلة النماذج بعد نسخ سابقة مثل 1.6 و2.0، حيث ركز هذا الجيل الجديد على تحسين جودة المخرجات بشكل ملحوظ، فهو قادر على توليد مقاطع يصل طولها إلى 10 ثوانٍ بدقة 1080 بكسل، مع تعزيز التناسق بين الإطارات وجعل الحركة والفيزياء أكثر واقعية.

ويمنح "كلينغ" صانع الفيديو مستوى عالياً من التحكم الإبداعي بفضل مجموعة من الميزات المبتكرة، منها "الفرشاة الحركية" التي تسمح بتحديد أجزاء معينة من الصورة والتحكم بشكل دقيق في حركتها داخل المشهد، مثل جعل شخصية تلوح بيدها أو تحريك كائن في اتجاه معين (غير أن هذه الميزة متاحة فقط حتى الآن في النسخة الأقدم "كلينغ 1.6"). كذلك تحتوي المنصة على ميزة مزامنة حركة الشفاه، لجعل الشخصية تنطق الكلام بحركات فم متطابقة على نحو واقعي.

إلى جانب ذلك، تتميز الأداة بتكاليف اشتراك معقولة مقارنة بمستوى الجودة الذي تقدمه وبما توفره النماذج المنافسة، إذ يبدأ الاشتراك الشهري من نحو 10 دولارات. ولكن على الرغم من الجودة العالية، فإن النموذج يواجه أحياناً صعوبة في الحفاظ على التماسك في المشاهد الأكثر تعقيداً، مثل مشاهد القتال أو القفز. كما أن رصيد الاستخدام قد ينفد سريعاً، ما يجعل الاستعانة بالأداة مكلفاً نسبياً عند الحاجة إلى إنتاج مقاطع متواصلة وبكثافة.

وبشكل عام، ذكرت الشركة المطورة أن هذه الأداة حققت انتشاراً واسعاً منذ إطلاقها في يونيو الماضي، إذ أنتجت أكثر من 10 ملايين مقطع فيديو، ما يعكس مدى الإقبال عليها من قبل المبدعين وصناع المحتوى.

اقرأ أيضاً: 5 أدوات للكشف عن الصور والفيديوهات المزيفة المولدة بالذكاء الاصطناعي

4- "رن أواي ألف": تحرير شامل للمشاهد عبر الأوامر النصية

في أواخر يوليو الماضي، كشفت شركة "رن أواي" عن نموذجها ألف (Aleph) الذي ينظر إليه كنقلة نوعية في مجال تحرير الفيديو بالاعتماد على الذكاء الاصطناعي. يسمح هذا النموذج للمستخدمين بإجراء تعديلات واسعة على المقاطع المصورة باستخدام أوامر نصية فقط، ما يفتح المجال أمام صناع المحتوى والمبدعين لتغيير العناصر البصرية والإضاءة وحتى زوايا التصوير دون الحاجة إلى إعادة التصوير أو الاعتماد على أدوات معقدة.

ويعتمد "ألف" على فهم السياق البصري للمشهد بما يضمن اتساق الإطارات وتماسك المشاهد الناتجة. ويتميز بقدرته على تنفيذ تعديلات دقيقة مثل إزالة أو إضافة أجسام داخل المشهد، وتغيير الطقس أو الإضاءة، فضلاً عن توليد لقطات جديدة بزوايا مختلفة من المشهد نفسه، فيما يعرف بميزة "التغطية اللامحدودة".

ويوفر النموذج وضعين للعمل: الأول "وضع الدردشة" الذي يتيح التفاعل النصي المباشر مع المستخدم، والثاني "وضع الأداة" الذي يمنح تحكماً أكثر تفصيلاً في كتابة التعليمات. وتوصي الشركة باستخدام "وضع الدردشة" باعتباره شريكاً إبداعياً في أثناء العمل على الفيديوهات، لأنه يساعد على صياغة التعليمات بدقة أكبر.

ومع هذه المزايا كلها، يبقى الحد الأقصى لمدة المقطع المولد عبر "ألف" 5 ثوانٍ فقط، غير أن النظام يتضمن أيضاً "وضع الاستكشاف" الذي يسمح بعمليات توليد غير محدودة.

وعلى الرغم مما يقدمه نموذج ألف من إمكانات متقدمة، فإنه يواجه بعض التحديات التي تحد من كفاءته في المهام المعقدة، إذ أشار عدد من المختبرين إلى أن تعديل المشاهد الكبيرة أو إعادة تشكيل بيئات كاملة لا يحقق دائماً نتائج مثالية، كما أن مستوى التحكم في التفاصيل الدقيقة لا يزال محدوداً مقارنة بالتحرير اليدوي التقليدي.

بالإضافة إلى الأدوات السابقة، يجدر ذكر بعض الأدوات والنماذج الأخرى التي أثارت الانتباه في مجال توليد الفيديو بالذكاء الاصطناعي خلال الفترة الأخيرة، ومن ضمنها بوت الدردشة "غروك" الذي يعمل على منصة "إكس" والذي اكتسب مؤخراً القدرة على توليد مقاطع الفيديو، وكذلك "سي دانس" الذي طورته شركة "بايت دانس" الصينية مالكة تطبيق "تيك توك"، إضافة إلى نموذج "هونيوان" الذي قدمته شركة "تينسنت" الصينية.

في المقابل، تبدو أداة "سورا" التي أطلقتها شركة "أوبن أيه آي" أقل تقدماً مقارنة بمنافسيها، إذ تعاني مشكلات متكررة في فهم التعليمات وتنفيذها بدقة، فضلاً عن غياب تحديثات جوهرية منذ فترة طويلة، حتى بعد إطلاق نموذج جي بي تي 5 مؤخراً.

المحتوى محمي