ميتا تنافس جوجل ومايكروسوفت عبر «كاميلين» وإصدار مفتوح المصدر من «لاما»

تشهد شركة ميتا فترة حافلة بالنشاط، فبعدما أطلقت منصتها الجديدة "ثريدز" لمنافسة تويتر، بدأت في اتخاذ خطوات سريعة للحاق بجوجل ومايكروسوفت، الشركتان اللتان تهيمنان على سباق الذكاء الاصطناعي التوليدي حالياً، حيث طورت نموذج أساس (Foundation Model) يسمى كاميلين (CM3leon) يمكنه تحويل النصوص إلى صور وكتابة أوصاف دقيقة للصور الموجودة، كما أعلنت عن إطلاق إصدار تجاري من نموذجها اللغوي لاما (LLaMA).

"كاميلين" يحتاج حوسبة تدريب أقل بخمس مرات

تقول ميتا إن نموذجها الجديد "كاميلين" هو "أول نموذج متعدد الوسائط تم تدريبه باستخدام تركيبة مقتبسة من نماذج لغوية نصية فقط". وتوضح أن هذه التركيبة بسيطة وتنتج نموذجاً قوياً، كما تُظهر أنه يمكن تدريب نماذج المحولات القائمة على الرموز (Tokenizer-Based Transformers) بنفس كفاءة تدريب النماذج القائمة على الانتشار التوليدي الحالية (Generative Diffusion-Based Models).

وتوضح الشركة، التي تمتلك منصات فيسبوك وإنستغرام وواتساب، أن "كاميلين" يحقق أداءً متطوراً في عملية توليد النص من الصورة، على الرغم من أنه يحتاج إلى حوسبة تدريب أقل بمقدار 5 مرات مقارنة بالأساليب السابقة القائمة على المحولات، ما يعني أن "كاميلين" يتمتع ببراعة وفعالية نماذج الانحدار الذاتي، مع الحفاظ على تكاليف تدريب منخفضة وكفاءة في الاستدلال، وهو ما يضع الأساس لنماذج أكثر تقدماً لفهم الصور في المستقبل.

في المقارنات المباشرة، يبدو أن "كاميلين" -غير المتاح بعد للاختبار أو الاستخدام التجاري- يقدم أداء جيداً عبر مجموعة متنوعة من مهام الرؤية والمهام اللغوية، بما في ذلك الإجابة عن الأسئلة المرئية وكتابة تسميات توضيحية طويلة. كما يتعامل مع الأجسام والمعوقات الصعبة في الأوامر النصية بشكل أفضل من نماذج مثل "دال-إي 2" و"ميدجورني". وتُظهر صور نشرتها الشركة أن النموذج قادر على تمثيل التشريح البشري بدقة ويمكنه تقديم نصوص دقيقة لوصف الصور.

نسخة تجارية من "لاما"

بالإضافة إلى "كاميلين"، من المقرر أن تطلق ميتا نسخة تجارية من نموذجها اللغوي "لاما"، وفقاً لما أوردته صحيفة "فايننشال تايمز" البريطانية، لتنافس الشركات المهيمنة حالياً مثل جوجل وأوبن أيه آي المدعومة من مايكروسوفت. وعلى عكس الإصدار السابق للنموذج اللغوي، الذي تم الإعلان عنه في فبراير الماضي وظل استخدامه مقصور حصراً على الباحثين والأكاديميين، ستوفر النسخة التجارية إمكانية وصول وتخصيص أوسع.

يتناقض نهج ميتا الذي يعتمد على جعل النماذج اللغوية الكبيرة (LLMs) مفتوحة المصدر، بمعنى إتاحة الفرصة أمام الجميع للوصول إليها وتعديلها، مع النهج "مغلق المصدر" الذي تتبعه الشركات المنافسة، مثل "أوبن أيه آي" وجوجل، والتي لا توفر التعليمات البرمجية الخاصة بنماذجها لأطراف ثالثة.

يمكن لهذا النموذج استخدام الذكاء الاصطناعي لإنشاء نصوص وصور وتعليمات برمجية، كما ستمكن النسخة التجارية من النموذج المطورين والشركات من جميع الأحجام من التكيف مع الذكاء الاصطناعي وتحسينه وتسريع الابتكار التكنولوجي عبر مختلف القطاعات، بحسب الشركة.

ومع ذلك، فإن كون "لاما" مفتوح المصدر لا يعني أنه سيكون مجانياً تماماً، فقد كشف مصدر من داخل ميتا لصحيفة "فايننشال تايمز" أن الشركة تعتزم فرض رسوم على عملائها من المؤسسات للسماح لها بتعديل النموذج ليتناسب مع متطلباتها، عبر إجراء عمليات ضبط دقيق باستخدام البيانات الخاصة بهذه المؤسسات. وعلى الرغم من أن ميتا لم تعلق رسمياً على هذا الخبر، فقد صرحت نائبة رئيس ميتا لأبحاث الذكاء الاصطناعي جويل بينو، قائلة: "في نهاية المطاف، لأنك تطلق شيئاً مفتوح المصدر، فأنت لا تتخلى تماماً عن الملكية الفكرية لهذا العمل".

تعاون مع مايكروسوفت في "لاما 2"

في السياق نفسه، تعاونت ميتا مع مايكروسوفت لإطلاق النموذج اللغوي لاما 2 (Llama 2)، وأوضحت الشركتان في بيان مشترك، أن "لاما 2" سيعمل على نظام التشغيل مايكروسوفت ويندوز ونظام الحوسبة السحابية أزور (Azure)، كما أنه سيكون مجانياً للاستخدام البحثي والتجاري.

وذكرت ميتا أن "لاما 2" تم تدريبه على بيانات متاحة على الإنترنت أكثر بنسبة 40% من "لاما 1"، كما يمكنه معالجة ضعف كمية البيانات مقارنة بالنموذج الأول.

We believe an open approach is the right one for the development of today's Al models.

Today, we’re releasing Llama 2, the next generation of Meta’s open source Large Language Model, available for free for research & commercial use.

Details ➡️ https://t.co/vz3yw6cujk pic.twitter.com/j2bDHqiuHL

— Meta AI (@MetaAI) July 18, 2023

وبالتوازي مع هذه التطورات، أطلقت ميتا هذا الأسبوع، مؤسسة جديدة تحت اسم مجتمع أبحاث الذكاء الاصطناعي المفتوح (Open Innovation AI Research Community)، تقول إنها تهدف لتعزيز "الشفافية والابتكار والتعاون" بين باحثي الذكاء الاصطناعي. وأضافت في إعلانها أنه من خلال الجمع بين وجهات النظر والخبرات المتنوعة، يمكن [لهذه المؤسسة] تسريع وتيرة التقدم في أبحاث الذكاء الاصطناعي.

المطورين ينجذبون إلى "لاما" بسبب "ضبط أوزانه"

يرى سيباستيان راشكا الباحث في شركة لايتننغ أيه آي (Lightning AI)، أن المطورين ينجذبون إلى "لاما" لأنه -على عكس النماذج اللغوية الكبيرة الأخرى- يمكن ضبط "أوزانه"، ما يتيح للمطورين إنشاء تفاعلات لغوية أكثر تقدماً وبلغة طبيعية مع المستخدمين، في تطبيقات مثل بوتات المحادثة والمساعدات الافتراضية.

وفي سياق نماذج الذكاء الاصطناعي، تشير "الأوزان" إلى المعاملات الوسيطة التي تعلمها النموذج أثناء عملية التدريب. يتم تخزين هذه المعاملات في ملف واستخدامها أثناء مرحلة الاستدلال أو التنبؤ.

يتوفر "لاما" في نسخ تحتوي على 7 و13 و33 و65 مليار معامل وسيط، مقارنة بـ 175 مليار معامل وسيط يحتوي عليها النموذج جي بي تي-3.5 (GPT-3.5) الذي طورته "أوبن أيه آي". وعلى الرغم من أن عدد المعاملات الوسيطة التي يحتوي عليها النموذج الأحدث جي بي تي-4 (GPT-4) غير معروفة على وجه الدقة، فإنه يُقدر بأكثر من 1 تريليون معامل.

تأتي هذه الأخبار على الرغم من استفسارات المشرعين، بما في ذلك خطاب أرسله اثنان من أعضاء مجلس الشيوخ الأميركي الشهر الماضي إلى الرئيس التنفيذي لشركة ميتا مارك زوكربيرغ، بشأن تسرب نموذج "لاما" على الإنترنت في شهر مارس/ آذار الماضي بعد أسبوع فقط من الإعلان عنه. وعبر العضوان عن قلقهما بشأن "احتمال إساءة استخدامه في المحتوى غير المرغوب فيه والاحتيال والبرامج الضارة وانتهاكات الخصوصية والمضايقات، وغيرها من المخالفات".

وبينما قد تسهم النماذج مفتوحة المصدر في اكتشاف الأخطاء وتحسين التكنولوجيا، ومعالجة مخاوف الخصوصية والمعلومات المضللة، فإنها تنطوي أيضاً على مخاطر بما في ذلك سوء الاستخدام من قبل الجهات الخبيئة، كما تشكل قضايا الملكية الفكرية وحقوق النشر مشكلات تنظيمية وقانونية لم تجد طريقها إلى الحل حتى الآن.