أحدثت نماذج اللغة الكبيرة مثل جي بي تي-4 عند ظهورها ضجة واسعة، وأصبحت حديث العالم لقدرتها على تحليل النصوص وفهمها وتفسيرها وإنشائها مثل معظم البشر، إلّا أنها في معظمها كانت قادرة على تقديم مخرجات نصية فقط، وليس لديها قدرات القيام بعمليات تفسير محتوى الوسائط الأخرى مثل تحليل الصور وذكر عناصرها أو تحليل مقاطع الفيديو وكتابة ملخص عنها، وغيرها من أنواع الوسائط الأخرى.
هذه القيود جعلت باحثي الذكاء الاصطناعي يفكّرون في الخطوة التالية التي يمكن إنجازها لتحقيق ذلك، وهو ما أدّى إلى ظهور نماذج الذكاء الاصطناعي متعدد الوسائط التي لديها القدرة على تحليل أنواع المدخلات كلّها وتفسيرها وإنشاء مخرجات لها. فما هو الذكاء الاصطناعي متعدد الوسائط؟ وما هي أبرز تطبيقاته؟
من توليد النص إلى القدرة على فهم أنواع الوسائط كلّها
على عكس نماذج الذكاء الاصطناعي التقليدية التي صُمِّمت للتعامل مع نوع واحد من البيانات، يجمع الذكاء الاصطناعي متعدد الوسائط (Multimodal AI) بين أنواع مختلفة من مدخلات البيانات، بما في ذلك الصور ومقاطع الفيديو والصوت، ويحللها لتحقيق فهم أكثر شمولاً وتوليد مخرجات أكثر قوة. على سبيل المثال، يمكن للنموذج متعدد الوسائط أن يتلقى صورة لمنظر طبيعي كمدخل وإنشاء ملخص مكتوب لخصائص هذا المكان أو تحويل مستنداتك إلى ملف صوتي بصيغة البودكاست، أو يتلقى وصفاً مكتوباً لمنظر طبيعي ويُنشئ صورة بناءً على الوصف.
لذلك في بداية انتشار نماذج الذكاء الاصطناعي التوليدي النصية، كانت شركات الذكاء الاصطناعي تستعين بأدوات أخرى لإنشاء الوسائط. على سبيل المثال، قبل إعلان شركة أوبن أيه آي نموذج جي بي تي-4 أو (GPT-o4) متعدد الوسائط، استخدمت النماذج الأقدم لتشغيل ميزات النص الخاصة به، لكنه اعتمد على أداة ويسبر لتحليل مدخلات الصوت و دال إي-3 لإنشاء الصور.
هذا الانتقال السريع بين النماذج يمثّل أحد أهم التطورات في مجال الذكاء الاصطناعي، إذ يُسهم في سد الفجوة بين الفهم البشري والآلي من خلال معالجة أنواع متعددة من البيانات في آنٍ واحد. فعلى عكس أنظمة الذكاء الاصطناعي الأحادية التي تتعامل مع نوع واحد فقط من البيانات، يمكن للنماذج متعددة الوسائط معالجة مدخلات وسائط مختلفة ودمجها وتوليدها في استجابة واحدة، ما يُتيح لها القدرة الشاملة على استجابات أكثر تفاعلاً وإنشاء تطبيقات جديدة فعّالة في مجالات أخرى.
اقرأ أيضاً: غروك 1.5 فيجن: إليك ما نعرفه عن نموذج الذكاء الاصطناعي المتعدد الوسائط
كيف تعمل نماذج الذكاء الاصطناعي متعدد الوسائط؟
مثلما تعمل الأدمغة البشرية على امتصاص المعلومات من النصوص والصور والصوت في وقتٍ واحد، تعمل نماذج الذكاء الاصطناعي متعدد الوسائط بدمج قدراتها الفردية كلّها في مكانٍ واحد حتى تتمكن من رؤية ما تراه عبر الإنترنت وسماع ما تسمعه، وتستفيد من نماذج التعلم الآلي المتقدمة مثل التعلم العميق ونماذج اللغات الكبيرة لتحليل مجموعات البيانات الضخمة وإنشاء محتوى جديد بناءً على مطالبات المستخدم الصوتية أو النصية أو الأنماط الأخرى الموجودة في البيانات.
وجوهر عملها لا يختلف كثيراً عن النماذج الأحادية، حيث تمر بعمليات التدريب والتصميم والتشغيل ولديها بنية المحولات الأساسية نفسها، ولكن نقطة الاختلاف الوحيدة هي تدريبها على مختلف أنواع الوسائط، فبالإضافة إلى تدريبها على مليارات النصوص، فإنها تُدرّب أيضاً على ملايين أو مليارات الصور ومقاطع فيديو ومقتطفات صوتية تحتوي على أوصاف نصية مصاحبة، وكل عملية التدريب هذه تحدث في الوقت نفسه.
والنتيجة أن الخوارزمية التي تشغل نموذج الذكاء الاصطناعي بأكمله لا تتعلم الكلمات فحسب، بل ستكون قادرة على التعرّف إلى صورة أو التعرّف إلى تفاصيل المقاطع الصوتية. على سبيل المثال، يمكنك رفع صورة شخصية لك وصورة لنظارتك الطبيعية وسيكون النموذج قادراً على تقديم توصيات للنظارة المناسبة لتكوين وجهك، وحتى إرشادك إلى المتاجر الإلكترونية القريبة منك التي تبيع هذه النظارات، أو يمكنك رفع مقطع صوت طائر ما وسيكون قادراً على التعرّف إلى الطائر وتقديم صور ومقاطع فيديو له وأي معلومات أخرى عنه.
اقرأ أيضاً: الذكاء الاصطناعي المتعدد الوسائط: ثورة في تفاعل المستخدم بين الصوت والصورة والنص
أبرز تطبيقات الذكاء الاصطناعي متعدد الوسائط
تتسع تطبيقات الذكاء الاصطناعي متعدد الوسائط باستمرار مع تطور النماذج التابعة لشركات الذكاء الاصطناعي الرائدة والشركات الناشئة التي لديها نماذج تعمل على إنتاج مخرجات لواحد أو أكثر من الوسائط، حيث تُعدُّ نماذج مثل نموذج جيميناي برو (Gemini Pro) ونموذج جي بي تي-4 أو (GPT-4o) من أشهر النماذج المتوفرة الآن، بالإضافة إلى سلسلة نماذج كلود (Claude) من شركة أنثروبيك ونموذج غروك 3 (Grok 3) من شركة إكس أيه آي.
بالإضافة إلى العديد من النماذج مفتوحة المصدر التابعة لبعض الشركات الأخرى، وهذه النماذج كلّها تشترك في وظائف متعددة من ضمنها:
إنشاء المحتوى وتحسينه
إنشاء صور واقعية من مطالبات نصية أو إنشاء مقاطع فيديو وتحريرها وإنشاء المقاطع الصوتية بناءً على النوتات الموسيقية وتركيب الكلام على الفيديوهات المرئية وإزالة العناصر من الفيديوهات أو الصور أو استبدال الخلفية، وتصحيح الألوان وحتى إنشاء ملخصات فيديو قصيرة من محتوى أطول.
تحليل المحتوى وفهمه
تحليل الصور ومقاطع الفيديو لتحديد الكائنات والأفراد فيها أو تحليل المشاعر من خلال تحليل النغمة العاطفية في مقاطع الفيديو أو الصور واسترجاع المعلومات من خلال فهم محتوى الصور ومقاطع الفيديو والصوت، ما يُتيح نتائج بحث أكثر دقة وذات صلة من عمليات البحث التقليدية القائمة على الكلمات الرئيسية.
تعزيز قطاع الرعاية الصحية
من خلال القدرة على تحليل صور الأشعة السينية والرنين المغناطيسي إلى جانب تاريخ المريض للكشف عن العلامات المبكرة للمرض وإدخال ملفات التقارير المرضية والبيانات الصحية ومقارنتها للحصول على توصيات علاجية دقيقة، ما يؤدي إلى تسريع التشخيص الطبي والمرونة في الرعاية المخصصة وتحسين نتائج علاجات المرضى.
بالإضافة إلى العديد من الاستخدامات الأخرى منها:
- البحث والتحليل التنافسي من خلال معالجة أنواع متعددة من البيانات مثل التقارير المالية والمقالات الإخبارية ومراجعات العملاء.
- دمج التقارير النصية ولوحات المعلومات وتدفقات البيانات في الوقت الفعلي للحصول على رؤى تعتمد على البيانات.
- معالجة الصور بعدة طرق مختلفة مثل تحميل صورة للحصول على وصف لها أو معرفة عناصر معينة في الصورة أو ترجمة النص في صورة وغيرها.
مثال تطبيقي: دع الذكاء الاصطناعي متعدد الوسائط يتصفح الويب ويخطط مشاريعك نيابة عنك
تعمل الشركات على الاستفادة من ثورة الذكاء الاصطناعي متعدد الوسائط بأي طريقة ممكنة لجذب أكبر عدد من مستخدمي الإنترنت لاستخدام منتجاتها، ومن ضمنها شركة مايكروسوفت التي تُعدُّ إحدى أكثر الشركات اندفاعاً في تضمين ميزات الذكاء الاصطناعي التوليدي في منتجاتها، وفي مقدمتها متصفح مايكروسوفت إيدج الذي أصبح أكثر ذكاءً من أي وقتٍ مضى.
بالإضافة إلى ذلك، بدأت مايكروسوفت اختبار نموذج ذكاء اصطناعي متعدد الوسائط يُسمَّى كوبايلوت فيجن (Copilot Vision) مدمج في المتصفح يمكنه القيام -بإذن منك- بفهم السياق الكامل لما تفعله عبر الإنترنت، حيث يرى الصفحة التي تتصفحها ويقرأ معك، ويمكنكما التحدث معاً عن المشكلة التي تواجهها للوصول إلى حل مثل التخطيط لعطلة نهاية الأسبوع أو تعلم لعبة جديدة.