ما الميزات التي يتمتع بها النموذج اللغوي العربي «جيس»؟

أعلن مركز "إنسِبشن" للذكاء الاصطناعي، نهاية الأسبوع الماضي، تعاونه مع جامعة محمد بن زايد للذكاء الاصطناعي لإطلاق إصدار مفتوح المصدر من النموذج اللغوي جيس (Jais)، مشيراً إلى أنه "النموذج اللغوي الكبير للغة العربية الأعلى جودة على مستوى العالم".

13 مليار معامل وسيط و395 مليار رمز مميز

يوضّح مركز "إنسِبشن"، التابع لمجموعة جي 42 (G42)، أن "جيس" -الذي سُمي تيمناً بأعلى قمة في دولة الإمارات العربية المتحدة- يستند إلى 13 مليار معامل وسيط، وقد تم تدريبه على مجموعة بيانات جرى تطويرها حديثاً وتضم 395 مليار رمز مميز (tokens)، بينها 116 مليار رمز مميز باللغة العربية و279 مليار رمز مميز باللغة الإنجليزية.

ومن أحد الأسباب التي دفعت المجموعة التي ضمت أكاديميين ومهندسين لإطلاق "جيس"، ندرة النماذج اللغوية الكبيرة ثنائية اللغة. وبحسب بيان منشور على موقع جامعة محمد بن زايد للذكاء الاصطناعي، فإن هذا النموذج القائم على المحولات، الذي تم تطويره في العاصمة الإماراتية أبوظبي، تدرب باستخدام حاسوب فائق مدعوم بالذكاء الاصطناعي يُسمّى كوندور جالاكسي (Condor Galaxy)، يتمتع بقدرة حوسبة متعددة الإكسافلوبس (مليون تريليون عملية حسابية في الثانية).

وكانت شركتا "سيريبراس سيستمز" و"جي 42" أعلنتا في يوليو/ تموز الماضي إطلاق شبكة "كوندور جالاكسي"، المؤلفة من تسعة حواسيب فائقة توفّر منهجية جديدة لحلول حوسبة الذكاء الاصطناعي.

وأوضحت الشركتان أن "كوندور جالاكسي 1"، وهو أول حاسوب فائق مدعوم بالذكاء الاصطناعي يعمل على الشبكة، يتميز بقدرة تصل إلى 4 إكسافلوبس ومعالج يضم 54 مليون نواة، وتخطط الشركتان لإطلاق حاسوبي "كوندور جالاكسي 2 و3" الفائقين مطلع عام 2024.

وكانت "سيريبراس" نفسها قد اشتهرت قبل عدة سنوات بتطوير شريحة سيليكون فائقة الأداء تُسمّى شريحة محرك التسريع (Wafer Scale Engine)، التي كانت أكبر شريحة حاسوبية صُنِعت على الإطلاق، إذ بلغت مساحتها 46,225 ميلي متر مربع، واحتوت على 400 ألف نواة معالجة مؤلفة من 1.2 تريليون ترانزستور. وفي أبريل/ نيسان 2021، أعلنت الشركة عن إصدار جديد من الشريحة يضم 2.6 تريليون ترانزستور ويحتوي على 850 ألف نواة لتنفيذ تطبيقات الذكاء الاصطناعي.

«جيس» يُتيح الفرصة للعرب لاستكشاف قدرات الذكاء الاصطناعي التوليدي

يهدف "جيس" إلى تلبية احتياجات قاعدة المستخدمين الكبيرة من المتحدثين باللغة العربية، والتي تُقدّر بأكثر من 400 مليون شخص، وبالتالي معالجة الفجوة في توافر النماذج اللغوية المتقدمة لهذه الفئة السكانية، كما يعزز مكانة دولة الإمارات باعتبارها مركزاً رائداً للذكاء الاصطناعي والابتكار وصون الثقافة والتعاون الدولي.

يقول أندرو جاكسون، الرئيس التنفيذي لمركز "إنسِبشن"، إن "جيس يرسي معياراً جديداً لتقدم الذكاء الاصطناعي في منطقة الشرق الأوسط، مع ضمان مكانة متميزة للغة العربية بكل ثرائها وإرثها في مشهد الذكاء الاصطناعي، ويعكس التزامنا الراسخ بالتميز والابتكار ونشر منظومة الذكاء الاصطناعي على نطاقٍ أوسع".

ويوضّح البروفيسور إيريك زينغ، رئيس جامعة محمد بن زايد للذكاء الاصطناعي، أن تطوير نموذج لغوي كبير للغة العربية من هذا المستوى "تطلّب إجراء أبحاث متقدمة في مجال الذكاء الاصطناعي، واكتساب فهم عميق للغة العربية بتنوعها وإرثها الغني وللأهمية المتنامية للنماذج اللغوية الكبيرة في مختلف جوانب المجتمع"، مشيراً إلى أن جامعة محمد بن زايد للذكاء الاصطناعي ستواصل ريادة النماذج اللغوية الكبيرة التي تتميز بالكفاءة والفاعلية والدقة.

ونقلت وكالة رويترز عن أندرو فيلدمان، الرئيس التنفيذي لشركة "سيريبراس سيستمز"، قوله إنه "تم تدريب هذا النموذج، من البداية إلى النهاية، على 13 مليار معامل وسيط، خلال ثلاثة أيام ونصف، ولكن كانت هناك أشهر من العمل سبقت ذلك".

وكان معهد الابتكار التكنولوجي، ذراع البحوث التطبيقية لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي، أطلق في مارس/ آذار الماضي نموذجه اللغوي فالكون (Falcon) الذي يحتوي على 40 مليار معامل وسيط. وكان وراء هذا الإطلاق وحدة الذكاء الاصطناعي التابعة لمركز بحوث العلوم الرقمية والذكاء الاصطناعي، وهو الفريق نفسه الذي كان مسؤولاً عن تطوير أكبر نموذج معالجة طبيعية للغة العربية في العالم، وهو نموذج "نور".

إم آي تي تكنولوجي ريفيو" تختبر «جيس»

يقول فريق العمل إن "جيس" يحقق أفضل أداء في العالم لنموذج لغوي كبير مفتوح المصدر باللغة العربية، كما يمكن أن يضاهي النماذج الإنجليزية ذات الحجم المماثل، على الرغم من تدريبه على بيانات أقل بكثير، مضيفاً أن جزء اللغة الإنجليزية من النموذج تعلّم من بيانات اللغة العربية والعكس صحيح.

ويستخدم "جيس" العديد من المزايا المتطورة، بما فيها ميزة الانتباه للتحيزات الخطية (ALiBi) التي تمكّن النموذج من استقراء تسلسل طويل لتوفير سياقٍ أفضل وأدق، كما يستخدم دالة تنشّط الوحدات الخطية المسورة (SwiGLU)، وهي تقنية يقول الفريق إنها تحسّن نمذجة الأنماط اللغوية المعقدة لفهم اللغة بدقة.

وقد حصلت "إم آي تي تكنولوجي ريفيو" على وصولٍ مسبق إلى النموذج، وتمكنت من اختباره لفترة قصيرة. وتُبيّن التجربة أن النموذج كان قادراً في معظم الأحيان على تقديم إجابات تتضمن معلومات دقيقة عن الأسئلة المتتابعة حول الموضوع نفسه، كما رفض الإجابة عن الأسئلة التي لم يكن متأكداً من إجابتها، كما يتضح من الأمثلة التالية:

على الرغم من هذه القدرات، فإن النموذج يعاني من المشكلات الشائعة نفسها في مختلف النماذج اللغوية الكبرى، ومن بينها المحدودية في بعض الأحيان، والميل إلى الخروج عن الحقائق والمنطق السياقي في أحيان أخرى.

تعاني النماذج اللغوية عادةً من هذا النوع من المحدودية نتيجة أخطاء أو تحيزات أو تناقضات في مجموعة البيانات التي يتم تدريبها عليها. وحتى عندما تكون مجموعة البيانات متسقة وموثوقة، فإن "الهلوسة" يمكن أن تحدث بسبب أساليب التدريب وتوليد الإجابات، أو حتى نتيجة اختلاف سياق الإدخال. وبالتالي، يمكن للمستخدمين تحسين طريقة كتابة الأوامر لتحسين النتائج.

«جيس» يفهم ثقافة المنطقة العربية

يتميز جيس ببنيته المصممة لفهم الفوارق الدقيقة في اللغة العربية بشكلٍ أفضل، بما في ذلك أسلوب الكتابة وترتيب الكلمات، وبالتالي ينتج استجابات أكثر دقة وملاءمة للسياق، ما يجعله يتفوق على النماذج الحالية التي يمثّل النص العربي جزءاً بسيطاً فقط من بيانات التدريب الخاصة بها.

ويقول تيموثي بالدوين، أستاذ الذكاء الاصطناعي في جامعة محمد بن زايد، إن "جيس" صُمِم ليفهم ثقافة وسياق المنطقة على نحو أكثر دقة، على عكس معظم النماذج التي تركّز على الولايات المتحدة. ويُضيف أنه تم إنشاء حواجز الأمان للتأكد من أن النموذج "لا يخرج عن الحدود المعقولة فيما يتعلق بالمشاعر الثقافية والدينية".

ويرى بالدوين أن "جيس" أفضل بشكلٍ واضح من أي نموذج آخر باللغة العربية. أمّا في اللغة الإنجليزية، "فتظهر المقارنات أننا قادرون على المنافسة أو حتى أفضل قليلاً في المهام المختلفة مقارنة بالنماذج الموجودة حالياً".

على الرغم من هذه المميزات، يحذّر المركز على موقعه من أن "جيس" -مثل أي نموذج لغوي كبير- قد يولّد معلومات أو محتوى غير صحيح و/أو مضلل و/أو مسيء، مضيفاً أنه يعمل باستمرار على تطوير نماذج تتمتع بقدرات أفضل، ويرحّب بالتالي بأيّ ملاحظات على النموذج.

تعاون أكاديمي واسع لإطلاق النموذج

بالتزامن مع إصدار النموذج، عقد مركز "إنسِبشن" وجامعة محمد بن زايد للذكاء الاصطناعي شراكة أكاديمية لإتاحة استخدام "جيس" من قِبل الفرق المطورة لنماذج اللغة العربية الحالية والمستقبلية بهدف اختباره.

وتضمنت قائمة الشركاء الأكاديميين لمركز "إنسِبشن" في إطلاق النموذج كلاً من جامعة كارنيغي ميلون، ومدرسة البوليتكنيك الفرنسية، وجامعة حمد بن خليفة، ومختبر المعلوماتية في جامعة شمال باريس، ومختبر “كامل” التابع لجامعة نيويورك أبوظبي، وجامعة إدنبرة.

وسوف تبدأ العديد من الهيئات والمؤسسات الإماراتية باستخدام النموذج بما فيها وزارة الخارجية، ووزارة الصناعة والتكنولوجيا المتقدمة، ودائرة الصحة-أبوظبي، وشركة بترول أبوظبي الوطنية (أدنوك)، وطيران الاتحاد، وبنك أبوظبي الأول، ومجموعة e&.

يوضّح الفريق أن "جيس" هو النموذج الأول من بين العديد من الإصدارات المخطط لها، ويمكن تنزيل النموذج من موقع (Hugging Face)، كما يمكن للمستخدمين تجربته عبر الإنترنت من خلال التسجيل عبر الموقع الإلكتروني لـ"جيس" وتلقي دعوة للوصول إليه.

وبشكلٍ عام، يسعى مركز "إنسِبشن"، من خلال فتح مصدر "جيس"، إلى تحفيز مشاركة المجتمعات العلمية والأكاديمية والمطورين في تسريع نمو منظومة حيوية للذكاء الاصطناعي باللغة العربية والارتقاء بمستوى الابتكار في هذا المجال. ويوضّح المركز أن "جيس" قد يشكّل أيضاً نموذجاً يحتذى به للغات أخرى لا تحظى حالياً بدرجة كافية من التمثيل في بيئات الذكاء الاصطناعي الرائجة.