نظام ذكاء اصطناعي جديد من ميتا يستطيع تحويل التعليمات النصية إلى مقاطع فيديو

3 دقائق
مصدر الصورة: قسم الذكاء الاصطناعي في ميتا

أماطت شركة ميتا (Meta) اللثام عن نظام ذكاء اصطناعي قادر على توليد مقاطع فيديو قصيرة بناءً على تعليمات نصية.

ويسمح لك نظام ميك-أيه-فيديو (Make-A-Video) بطباعة مجموعة من الكلمات، مثل "كلب يرتدي لباس بطل خارق مع رداء أحمر يحلق في السماء"، ومن ثم يقوم بتوليد مقطع بطول خمس ثوانٍ، ويتميز بدقة كبيرة من حيث المحتوى، إلا أنه يبدو أقرب إلى مقطع فيديو منزلي قديم.

وعلى الرغم من أن التأثير بدائي نوعاً ما، فإن النظام يقدم لنا لمحة مبكرة عما سيظهر لاحقاً في مجال الذكاء الاصطناعي التوليدي، وهو الخطوة المنطقية التالية بعد أنظمة الذكاء الاصطناعي التي تحوّل النص إلى صور، والتي أثارت حماسة كبيرة هذا العام.

ومن المرجّح أن يؤدي إعلان ميتا عن ميك-إيه-فيديو، والذي لا يزال غير متاح للعامة، إلى دفع مختبرات الذكاء الاصطناعي الأخرى إلى إطلاق نسخ خاصة بها. كما أنه يثير بعض التساؤلات الأخلاقية الكبيرة.

تحديات نظام تحويل النص إلى فيديو

فمنذ فترة وجيزة، وخلال شهر واحد، قام مختبر الذكاء الاصطناعي أوبن أيه آي (OpenAI) بنشر أحدث أنظمة الذكاء الاصطناعي التي صممها لتحويل النص إلى صور، دال-إي (DALL-E)، للعامة دون استثناء، كما قامت شركة الذكاء الاصطناعي ستابيليتي أيه آي (Stability.AI) بإطلاق نظام الذكاء الاصطناعي مفتوح المصدر ستيبل ديفيوجن (Stable Diffusion) لتحويل النص إلى صور.

اقرأ أيضاً: بماذا يختلف نظام الذكاء الاصطناعي الصيني الجديد «إرني-فيلج» عن دال-إي 2؟

ولكن الذكاء الاصطناعي الذي يحوّل النص إلى فيديو يفرض تحديات أكبر. فهذه النماذج تحتاج إلى مقادير كبيرة من القدرات الحاسوبية. وتمثل عبئاً حاسوبياً أكبر حتى من النماذج الكبيرة التي تحوّل النص إلى صور، والتي يحتاج تدريبها إلى الملايين من الصور، لأن تركيب مجرد لقطة فيديو واحدة يحتاج إلى المئات من الصور. وهذا يعني أن بناء هذه الأنظمة في المستقبل المنظور سيقتصر على الشركات التكنولوجية الضخمة التي تستطيع تحمل التكاليف. كما أن تدريبها أكثر صعوبة، بسبب عدم وجود مجموعات بيانات ضخمة من مقاطع الفيديو عالية الجودة المقترنة بالنص.

وللالتفاف على هذه المشكلة، قامت ميتا بجمع بيانات من ثلاث مجموعات بيانات صور وفيديو مفتوحة المصدر لتدريب نموذجها. فمجموعات البيانات المعيارية من الصور النصية المصنّفة على أنها صور ثابتة ساعدت الذكاء الاصطناعي في تعلم أسماء الأشياء والتعرف على أشكالها. أما قاعدة بيانات الفيديو فساعدته على تعلم كيفية حركة هذه الأجسام ضمن العالم. وبتركيب كلتا المقاربتين، تمكن ميك-أيه-فيديو، والذي تم توصيفه بدقة في ورقة بحثية غير محكمة ومنشورة حديثاً، من توليد مقاطع الفيديو من النص بكميات كبيرة.

اقرأ أيضاً: أوبن أيه آي تطرح مليون نسخة من نموذجها اللغوي دال إي في الأسواق

يقول الباحث العلمي المختص بالرؤية الحاسوبية في معهد آلين للذكاء الاصطناعي، تانماي غوبتا، إن نتائج ميتا واعدة. وتبين مقاطع الفيديو التي شاركها أن النموذج يستطيع التقاط الأجسام ثلاثية الأبعاد في أثناء دوران الكاميرا. ويتمتع هذا النموذج أيضاً بدرجة من الاستيعاب لمفهومي العمق والإضاءة. ويقول غوبتا إن بعض التفاصيل والحركات مقنعة وتحمل درجة جيدة من الإتقان.

"عاشقان يافعان يسيران تحت مطر غزير"

ولكن، وكما يضيف: "هناك مجال واسع أمام الأوساط البحثية للتحسين، خصوصاً إذا كانت هذه الأنظمة ستُستخدم في تحرير الفيديو وإنشاء محتوى احترافي". وما زالت نمذجة التفاعلات المعقدة بين الأجسام تحدياً صعباً على وجه الخصوص لهذا النظام.

وفي مقطع فيديو تم توليده وفق النص التالي "فرشاة رسام ترسم على قماش لوحة رسم"، تتحرك الفرشاة فوق لوحة الرسم، ولكن الضربات الظاهرة على اللوحة غير واقعية. يقول غوبتا: "أحب أن أرى نجاح هذه النماذج في توليد سلسلة من التفاعلات، مثل: رجل يلتقط كتاباً من الرف ويرتدي نظاراته ويجلس لكي يقرأه وهو يشرب فنجاناً من القهوة‘".

"فرشاة رسام ترسم على قماش لوحة رسم"

من جهتها، تَعد ميتا بأن هذه التكنولوجيا يمكن "أن تفتح فرصاً جديدة أمام المنتجين وصناع المحتوى والفنانين". ولكن، ومع تطور التكنولوجيا، توجد مخاوف من استخدامها كأداة قوية لإنتاج ونشر المعلومات المزيفة والتزييف العميق. وقد يكون التمييز بين المحتوى الحقيقي والمزيف على الإنترنت أكثر صعوبة حتى في هذه الحالة.

يقول الخبير في الوسائط الاصطناعية هنري أجدير إن نموذج ميتا يمثل خطوة إلى الأمام في مجال الذكاء الاصطناعي التوليدي من الناحيتين التقنية والابتكارية، وأيضاً "من حيث الأضرار الفريدة من نوعها، والتي يمكن أن تنتج عن توليد مقاطع فيديو متحركة، مقارنة بالصور الثابتة".

اقرأ أيضاً: نظام ذكاء اصطناعي يفيض خيالاً من أوبن إيه آي بدأ يتعلّم توليد الصور

ويقول غوبتا: "في الوقت الحالي على الأقل، يحتاج إنتاج المحتوى الخاطئ واقعياً والذي يمكن أن يصدقه الناس إلى بعض الجهد. ولكن في المستقبل، قد يصبح من الممكن إنتاج محتوى مضلل ببضع لمسات أزرار".

قام الباحثون الذين بنوا ميك-أيه-فيديو بفلترة الصور والكلمات المسيئة، ولكن مع مجموعات بيانات تتألف من الملايين من الكلمات والصور، يكاد يكون من المستحيل إزالة المحتوى المسيء والمتحيز تماماً.

وقال ناطق باسم ميتا إنها لن تتيح استخدام النموذج أمام العامة بعد، وأيضاً أن الشركة "ستواصل استكشاف أساليب جديدة لتحسين عمل النموذج والتخفيف من الأخطار المحتملة، وذلك في إطار العمل البحثي".

المحتوى محمي