الذكاء الاصطناعي المتعدد الوسائط: ثورة في تفاعل المستخدم بين الصوت والصورة والنص

أصبحت الدردشة مع بوت يعتمد على الذكاء الاصطناعي أشبه بموضة قديمة من عام 2022. فأحدث أنظمة الذكاء الاصطناعي تعتمد على النماذج المتعددة الوسائط، التي تستطيع التعامل مع عدة أشياء في الوقت نفسه، مثل الصور والصوت والنصوص.

ومن الأمثلة على هذا: نوت بوك إل إم (NotebookLM) من شركة جوجل. نوت بوك إل إم أداة بحثية أطلقتها الشركة دون أن تُثير الكثير من الضجة منذ عام واحد. ومنذ بضعة أسابيع، أضافت جوجل إليها أداة ذكاء اصطناعي لإنشاء التدوينات الصوتية باسم "أوديو أوفرفيو" (Audio Overview)، وهي تُتيح للمستخدمين إنشاء تدوينات صوتية عن أي شيء تقريباً. فإذا لقمت الأداة بالرابط التشعبي لحسابك على منصة لينكدإن (LinkedIn)، ستنال مديحاً مدة تسع دقائق من مضيفَي المدونة الصوتية اللذين يعملان بالذكاء الاصطناعي. وقد حققت هذه الميزة انتشاراً مفاجئاً وواسع النطاق. وقد كتبت عن الأساليب الغريبة والرائعة التي يتبعها المستخدمون في الاستفادة من هذه الميزة هنا.

الاتجاه إلى توليد المحتوى متعدد الوسائط

وحتى أعطيكم مثالاً سريعاً، أنشأت تدوينة صوتية حول العدد الذي أصدرته المجلة بمناسبة الذكرى الـ 125 لتأسيسها. قدّم نظام الذكاء الاصطناعي أداءً رائعاً في اختيار بعض المواضيع المميزة من المجلة وتوضيح فحواها للمستمعين. ويمكنك الاستماع إلى النتيجة أدناه.

أيضاً، أصبح المحتوى التوليدي المتعدد الوسائط أفضل بكثير خلال فترة قصيرة جداً. في سبتمبر/أيلول من عام 2022، كتبت عن أول نموذج يحوّل النصوص إلى فيديو من شركة ميتا (Meta)، وكان يحمل اسم "ميك أفيديو" (Make-A-Video). ومقارنة بمخرجات التكنولوجيات الحالية، تبدو مقاطع الفيديو تلك خرقاء وتافهة. أعلنت ميتا منذ فترة وجيزة نظامها المنافس لنظام سورا (Sora) من أوبن أيه آي (OpenAI)، الذي يحمل اسم "موفي جين" (Movie Gen). تُتيح هذه الأداة للمستخدمين استخدام الأوامر النصية لإنشاء مقاطع فيديو ومقاطع صوتية حسب الطلب، وتعديل مقاطع الفيديو الموجودة مسبقاً، وتحويل الصور إلى مقاطع فيديو.

علاوة على ما سبق، بدأت طريقة تفاعلنا مع أنظمة الذكاء الاصطناعي تتغير، حيث بدأت تصبح أقل اعتماداً على النصوص. فواجهة كانفاس (Canvas) الجديدة من أوبن أيه آي تُتيح للمستخدمين التعاون على إنجاز المشاريع مع تشات جي بي تي (ChatGPT). وبدلاً من الاعتماد على نافذة دردشة تقليدية، التي تفرض على المستخدمين تكرار عملية تلقيم الأوامر النصية وتوليد النصوص عدة مرات للحصول على النتيجة المرجوة، تُتيح كانفاس للمستخدمين تحديد أجزاء من النص أو الرموز البرمجية لتعديلها.

حتى أنظمة البحث تجري ترقيتها حتى تصبح متعددة الوسائط. فقد أطلقت جوجل ميزة جديدة تُتيح للمستخدمين تحميل مقطع فيديو واستخدام أصواتهم للبحث عن أشياء فيه، إضافة إلى إدراج الإعلانات ضمن ملخصات الذكاء الاصطناعي التي تقدّمها ميزة معروفة باسم "أيه آي أوفرفيو" (AI Overview). وفي عرض توضيحي في مؤتمر آي/أو (I/O) الذي تنظّمه جوجل كل عام، عرضت الشركة كيف يمكنك فتح تطبيق عدسة جوجل (Google Lens)، وتصوير مقطع فيديو لأسماك تسبح في حوض مائي، وتوجيه الأسئلة عن هذه الأسماك. عندئذ، سيبحث تطبيق جيميناي (Gemini) من جوجل في الإنترنت، ويقدّم لك إجابة بصيغة ملخص مولد بالذكاء الاصطناعي من جوجل.

تخصيص الواجهات التفاعلية مع بوتات الدردشة

ما يجمع هذه الميزات هو وجود واجهة تفاعلية بدرجة أكبر وقابلة للتخصيص، مع القدرة على تطبيق أدوات الذكاء الاصطناعي على الكثير من الأنواع المختلفة من المواد المصدرية. كانت أداة "نوت بوك إل إم" أول أداة من جوجل أثارت إعجابي وسروري منذ فترة طويلة، ويعود هذا جزئياً إلى مدى تميّز أصوات الذكاء الاصطناعي فيها وواقعيتها وقدرتها على مفاجأة المستخدمين. لكن النجاح الذي حققته ميزة أوديو أوفرفيوز في أداة "نوت بوك إل إم"، على الرغم من أنها ميزة ثانوية مخفية ضمن منتج أكبر، يؤكد لنا أن مطوري برمجيات الذكاء الاصطناعي لا يدركون ما يفعلون حقاً. وقد كان "تشات جي بي تي" في حد ذاته بمثابة نجاح غير متوقع بالنسبة إلى أوبن أيه آي، على الرغم من أنه يصعب تصديق ذلك حالياً.

مرَّ عامان على انطلاق طفرة الذكاء الاصطناعي التوليدي التي وصلت قيمتها إلى عدة مليارات من الدولارات. وقد أسهمت الاستثمارات الضخمة في الذكاء الاصطناعي في تحسين جودة المحتوى الناتج خلال فترة وجيزة. لكننا لم نرَ حتى الآن ما يُسمَّى بـ "التطبيق القاتل" (Killer App)، وهذه التطبيقات الجديدة المتعددة الوسائط ما هي إلّا نتيجة للضغوط الهائلة التي تتعرض لها شركات الذكاء الاصطناعي لكسب الأموال وتقديم الخدمات. فقد باتت شركات الذكاء الاصطناعي تعتمد على أسلوب طرح أدوات ذكاء اصطناعي مختلفة على الجمهور، ومراقبة ما سيحدث لتحديد الأدوات التي ستحقق النجاح.