غروك 1.5 فيجن: إليك ما نعرفه عن نموذج الذكاء الاصطناعي المتعدد الوسائط

2 دقيقة
حقوق الصورة: shutterstock.com/Ascannio

تستعد شركة الذكاء الاصطناعي إكس أيه آي (xAI) التي أسسها إيلون ماسك للكشف عن نسخة متطورة من نموذج اللغة الكبير غروك (Grok). هذا النموذج لن يكون قادراً فقط على معالجة النصوص، بل أيضاً على التعامل مع المعلومات المرئية، وذلك بحسب عرض توضيحي نشرته الشركة على موقعها.

تحدث العرض عن إصدار غروك 1.5 فيجن (Grok 1.5V) أو غروك 1.5 فيجن (أو Grok 1.5 Vision)، وذكر أنه النموذج الأول من شركة إكس أيه آي القادر على معالجة كل من النصوص والصور.

اقرأ أيضاً: ما الذي نعرفه عن النموذج اللغوي الجديد جي بي تي-5 حتى الآن؟

أول نموذج متعدد الوسائط

بحسب العرض التوضيحي للشركة، فإن غروك 1.5 فيجن هو الجيل الأول من نموذجها المتعدد الوسائط. وبالإضافة إلى إمكاناته النصية الرائعة، سيكون قادراً على معالجة الصور بما في ذلك المستندات والرسوم البيانية والمخططات ولقطات الشاشة والصور الفوتوغرافية. ومن المتوقع أن يتمكن المختبرون الأوائل ومستخدمو غروك الحاليون من الوصول إليه قريباً.

مقارنة بالنماذج المنافسة

تضمن العرض أيضاً مقارنة بين غروك 1.5 فيجن والنماذج المنافسة التي طوّرتها شركات أخرى، يشمل ذلك تشات جي بي تي-4 في (ChatGPT-4V) من شركة أوبن أيه آي، ونموذج كلود 3 سونت (Claude 3 Sonnet) وكلود 3 أوبوس (Claude 3 Opus) وكلاهما من شركة أنثروبيك، بالإضافة إلى نموذج جيميناي برو 1.5 (Gemini Pro 1.5) من جوجل.

حقوق الصورة: إكس إيه آي

شملت المقارنة سبعة أمثلة لكيفية استخدام غروك 1.5 فيجن للبيانات المرئية، وتمت على النحو التالي:

1. كتابة التعليمات البرمجية من الرسم التخطيطي

تضمن المثال الأول تقديم صورة للعبة مرسومة على سبورة، ثم سؤاله، هل يمكنك ترجمة هذا إلى كود بايثون؟

تعرف غروك على الصورة وكتب كود البايثون الذي يشغل لعبة تخمين بسيطة، حيث ينشئ الحاسوب رقماً عشوائياً، وعلى المستخدم تخمينه.

اقرأ أيضاً: شركة ميتا تطوّر نماذج ذكاء اصطناعي جديدة تتحدث أكثر من ألف لغة

2. حساب عدد السعرات الحرارية

تضمن هذا المثال تقديم صورة لجدول القيمة الغذائية لمنتج غذائي، ثم سؤاله كم عدد السعرات الحرارية الموجودة في 5 شرائح من هذا؟

قرأ النموذج عدد السعرات الحرارية في الجدول، وهي 60 سعرة حرارية في 3 شرائح، هذا يعني أن 5 شرائح تحتوي على 100 سعرة حرارية تقريباً.

3. تحويل من الرسم إلى قصة ما قبل النوم

في المثال الثالث، طُلب من غروك تحويل رسمة طفل على ورقة إلى قصة قصيرة قبل النوم، وبالفعل، كتب النموذج القصة.

4. شرح صورة فكاهية

استطاع النموذج فهم مغزى صورة فكاهية وتمكن من شرحها بأنها مقارنة بين الشركات الناشئة والشركات الكبرى. على الجانب الأيسر تحت مسمى "الشركات الناشئة"، ترى مجموعة من الأشخاص يعملون معاً لحفر حفرة. إنهم جميعاً يشاركون بنشاط.

على الجانب الأيمن، تحت مسمى "الشركات الكبرى"، ترى مجموعة من الأشخاص يقفون حول حفرة. ومع ذلك، على عكس جانب الشركات الناشئة، يقوم شخص واحد فقط بحفر الحفرة، بينما يراقب الآخرون أو يشاركون في أنشطة أخرى.

اقرأ أيضاً: كيف تستخدم نموذج الذكاء الاصطناعي لاما 2 من ميتا؟

5. تحويل الجدول إلى ملف CSV

تمكن النموذج في هذا المثال من قراءة جدول بيانات وتحويله إلى ملف سي إس في (CSV)، وهو ملف نصي له تنسيق محدد يسمح بحفظ البيانات بتنسيق منظم.

6. المساعدة على تحديد مشكلة في الصورة

في هذا المثال، قُدمت صورة لخشب مهترئ حول برغي على سطح سفينة، وطلب منه تقييم المشكلة، قال النموذج إن الخشب الموجود على سطح السفينة قد بدأ بالتعفن. والدليل على ذلك وجود ثقوب حول البرغي، وهي علامة شائعة من علامات تعفن الخشب.

7. حل مشكلة من خلال البرمجة

المثال الأخير الذي نشرته الشركة تضمن صورة لمشكلة على شكل نص، كتب غروك تعليمات برمجية لحل هذه المشكلة.

اقرأ أيضاً: 5 نسخ مخصصة من جي بي تي عليك تجربتها اليوم

إذا كانت قدرات الرؤية الحاسوبية التي أظهرها غروك 1.5 في هذه الأمثلة صحيحة كما ذكرت شركة إكس أيه آي، فإن ذلك سيمثّل دخول عملاق جديد في مجال الذكاء الاصطناعي لما له من قدرات على فهم العالم الخارجي.

المحتوى محمي