مرَّ عامان على إطلاق بوت الدردشة "تشات جي بي تي" أول مرة. ومنذ نوفمبر 2022، شهدت النماذج المشغلة لهذا البوت تطورات سريعة، حيث بدأ "تشات جي بي تي" عمله معتمداً على النموذج "جي بي تي 3.5" ثم انتقل في مارس 2023 إلى النموذج "جي بي تي 4". وفي مايو 2024، تحوّل إلى النموذج "جي بي تي-4 أو" ليُضيف تحسينات إضافية على الأداء والقدرات. وفي سبتمبر 2024، أطلقت الشركة النموذج أو 1 (1o)، الذي أصبح أحدث النماذج المتاحة للجمهور حتى الآن.
على الرغم من أن هذه التطورات حدثت خلال فترة زمنية قصيرة نسبياً، يبدو أن شركة "أوبن أيه آي" تسعى لتسريع الوتيرة على نحو أكبر. فلم تمضِ سوى 3 أشهر على إطلاق "أو 1" حتى أعلنت الشركة خليفته أو 3 (o3) الذي تخطط لإطلاق نسخة مصغرة منه هذا الشهر، والذي ألمح العديد من الخبراء والمسؤولين في "أوبن أيه آي" إلى أنه وإن لم يمثّل ذكاء اصطناعياً عاماً في حد ذاته، إلّا أنه خطوة مهمة على طريق الوصول إلى هذا النوع المفترض من "الذكاء المتقدم".
اقرأ أيضاً: إليك كلَّ ما أعلنته شركة أوبن أيه آي في حدثها الاحتفالي 12 Days Of OpenAI
كيف يختلف "أو 3" عن النماذج السابقة؟
في اليوم الأخير من حدث "12 يوماً من أوبن أيه آي"، كشفت الشركة عن نموذج "أو 3" ونسخته المصغرة "أو 3-ميني" (o3-mini)، موضحة أن النموذج صُمِّم للتعامل مع مجموعة واسعة من المهام، بما في ذلك المسائل الرياضية والعلمية ومهام البرمجة، عبر توفير آلية فريدة لمحاكاة التفكير أطلقت عليها الشركة اسم سلسلة التفكير الخاصة (Private Chain Of Thought) حيث يتوقف النموذج لفحص حواره الداخلي والتخطيط مسبقاً قبل الإجابة. وتُعرف هذه العملية أيضاً باسم الاستدلال المُحاكى (Simulated Reasoning).
وأوضح الرئيس التنفيذي للشركة سام ألتمان، خلال الإعلان عن النموذج الجديد، أن اختيار اسم (o3) بدلاً من (o2) جاء لتجنب تعارض العلامة التجارية للنموذج مع اسم شركة الاتصالات البريطانية (O2). وأضاف ألتمان بنبرة ساخرة: "وفقاً للتقاليد العظيمة لاختيار "أوبن أيه آي" أسماء سيئة، فسوف يُطلق عليه اسم أو 3".
حتى الآن، لم تُطلق الشركة النموذج الجديد للجمهور ولم تُفصح عن تفاصيل شاملة حول قدراته، مكتفية بتقديم عروض إعلامية محدودة وإتاحة النظام لاختبارات أولية من قِبل عددٍ محدودٍ من الباحثين ومؤسسات السلامة. وتعتقد "أوبن أيه آي" أن الفهم الكامل لقدرات "أو 3" يتطلب دراسات مكثّفة تشمل تقييم نقاط القوة والضعف وتكرار النجاحات والإخفاقات.
على الرغم من المعلومات الشحيحة المتاحة عن النموذج، فإن الشركة تؤكد أنه يتفوق على أبرز تقنيات الذكاء الاصطناعي الحالية في اختبارات قياس المهارات في مجالات الرياضيات والعلوم والبرمجة والمنطق. وأضافت أن هذا النموذج أظهر تحسناً بنسبة تزيد على 20% مقارنة بالنموذج السابق "أو 1" في مجموعة من المهام البرمجية الشهيرة، بل إنه تجاوز أداء كبير علماء الشركة، جاكوب باتشوكي، في اختبار برمجي تنافسي، ما يُعدُّ إنجازاً يبرز القدرات المتقدمة للنظام في محاكاة التفكير المنطقي واتخاذ القرارات.
يتضمن "أو 3" أيضاً ميزة مهمة هي إمكانية تعديل وقت التفكير (adaptive thinking time)، التي تسمح للنظام بتكيُّف سرعة معالجته حسب الحاجة، ما يوفّر سرعات معالجة منخفضة ومتوسطة وعالية، وهو أمر أشبه بمستشار يُمكنه أن يقدّم لك إجابة سريعة في أثناء العمل، أو تحليلاً عميقاً إذا كان لديك متسعٌ من الوقت.
اقرأ أيضاً: كيف تستخدم أداة توليد الفيديو الجديدة من أوبن أيه آي «سورا»؟
الأرقام لا تكذب: "أو 3" يتفوق في اختبارات الذكاء الاصطناعي العام والرياضيات والعلوم
سجّل النموذج الجديد نتائج غير مسبوقة على معيار "مجموعة التجريد والاستدلال للذكاء الاصطناعي العام" أو ما يُعرف اختصاراً باسم (ARC-AGI). ويُعتبر هذا المعيار، الذي ابتُكِر عام 2019، اختباراً متقدماً لقياس قدرة الأنظمة الذكية على التكيُّف مع التحديات الجديدة واكتساب مهارات جديدة، بدلاً من الاعتماد على المعرفة المخزنة فقط.
بحسب "أوبن أيه آي"، حقق نموذج "أو 3" نسبة دقة بلغت 75.7% في سيناريوهات الحوسبة المنخفضة، وارتفعت هذه النسبة إلى 87.5% في سيناريوهات الحوسبة العالية. وهذه النتيجة تضع النموذج على قدم المساواة مع الأداء البشري الذي يصل في المتوسط إلى 85%. وقد أجرت الشركة هذا التقييم بالتعاون مع فرانسوا شوليه، مبتكر معيار (ARC-AGI) والعالم في وحدة الذكاء الاصطناعي بشركة جوجل. ويُعدُّ (ARC-AGI) معياراً فريداً من نوعه لأنه يركّز على قياس قدرة الأنظمة الذكية على التكيُّف مع المستجدات والمهام الجديدة وحل المشكلات التي لم يتدرب عليها مسبقاً، وهو ما يجعله أكثر تعقيداً من المعايير الأخرى التي تعتمد أساساً على المعرفة المخزنة.
ولم يقتصر تفوق النموذج "أو 3" على معيار (ARC-AGI) فقط، فقد حقق أيضاً نتائج رائعة في عدة اختبارات أخرى:
- حصل "أو 3" على 96.7% في "اختبار الرياضيات الأميركي المتقدم لعام 2024"، حيث أخطأ في سؤال واحد فقط.
- حقق النموذج 87.7% في اختبار (GPQA Diamond)، الذي يتضمن أسئلة على مستوى الدراسات العليا في مجالات مثل علم الأحياء والفيزياء والكيمياء.
- تمكن النموذج الجديد من حل 25.2% من المسائل في معيار الرياضيات (Frontier Math)، وهو إنجاز مذهل مقارنة بالنماذج السابقة التي لم تتجاوز نسبة نجاحها 2%.
ما وراء الأرقام: لماذا يُثير "أو 3" هذه الضجة كلّها؟
وفقاً لمقالة نشرها كلٌ من باحث الدكتوراة في الجامعة الوطنية الأسترالية مايكل تيموثي بينيت، وزميل الأبحاث في مركز ستانفورد للتكنولوجيا الكمومية المسؤولة إيليا بيرييه، فإن القدرة على التعميم (Capacity To Generalize)، أي القدرة على حل المشكلات غير المعروفة أو الجديدة بدقة من عينات محدودة من البيانات هي عنصر ضروري، بل وأساسي، للذكاء.
يعترف الباحثان في مقالهما المشترك المنشور في موقع "ذا كونفرشيشن" بأنهما لا يعرفان بالضبط كيف جعلت "أوبن أيه آي" نموذجها يجتاز معيار (ARC-AGI)، لكن النتائج تشير إلى أن "أو 3" يمتلك قدرة كبيرة على التكيُّف، فمن خلال بضعة أمثلة فقط يجد قواعد يمكن تعميمها.
من جانبه، يعتقد فرانسوا شوليه، الذي صمم المعيار، أن آلية عمل النموذج هي البحث عبر "سلاسل أفكار" متعددة تصفُ خطوات حل المهمة، ثم اختيار "الأفضل" وفقاً لقاعدة فضفاضة أو "قاعدة استدلالية"، وهي طريقة ربما لا تختلف كثيراً عن تقنية مونت كارلو للبحث الشجري (Monte Carlo Tree Search) التي يستخدمها نظام ألفا زيرو (AlphaZero) الذي طوّرته شركة جوجل. بكلمات أخرى، يولّد "أو 3" مسارات متعددة للحل، ثم يُقيّمها بواسطة نموذج مُقيِّم (Evaluator Model) لتحديد الخيار الأمثل. وتحاكي هذه العملية إلى حدٍّ كبيرٍ العصف الذهني الذي يُجريه البشر عند مواجهة مشكلات معقدة، حيث يتم التفكير في حلول متعددة قبل اختيار الأنسب.
في مقالهما، يتساءل الباحثان بينيت وبيرييه عمّا إذا كان هذا الأمر يقرّبنا حقاً من فكرة الذكاء الاصطناعي العام، لأنه إذا كانت هذه هي الطريقة التي يعمل بها "أو 3"، فإنه قد لا يكون أفضل كثيراً من النماذج السابقة، كما أن هناك تحدياً آخرَ أمام النموذج وهو ارتفاع التكلفة التي تحتاج إليها حوسبته المتقدمة، ما يجعله أشبه بـ "سيارة فيراري في عالم من سيارات فورد"، وما يُثير مخاوف من الجدوى الاقتصادية لاستخدامه في المهام اليومية.
في الأحوال كلّها، إذا كان النموذج قادراً على التكيُّف بهذه الطريقة، فقد يؤدي إلى "تأثير اقتصادي هائل وثوري"، ما يبشّر بعصرٍ جديدٍ من الذكاء المتسارع الذي يتحسن ذاتياً. أمَّا إذا لم يكن الأمر كذلك، فستظل هذه النتيجة باهرة لكنها قد لا تُحدِث فرقاً كبيراً في حياتنا اليومية، وفقاً لرأي الباحثين.
اقرأ أيضاً: هل اقتربت شركة أوبن أيه آي من تطوير الذكاء الاصطناعي العام؟
توجه نحو نماذج الاستدلال المُحاكى
يأتي الإعلان عن "أو 3" في وقتٍ تشهد فيه الساحة التقنية تنافساً متزايداً بين الشركات الكبرى لتطوير نماذج "استدلال مُحاكى" خاصة بها. ومن بين هذه النماذج نموذج جيميناي الجديد (Gemini 2.0 Flash Thinking Experimental)، والنموذج ديب سيك في 3 (DeepSeek V3) الذي طوّرته شركة الذكاء الاصطناعي الصينية "ديب سيك". ويوصف هذا الأخير بأنه أحد أقوى نماذج الذكاء الاصطناعي "المفتوحة المصدر" حتى الآن. ومع ذلك، لا تزال المقارنات المباشرة بين هذه النماذج صعبة، إذ يتطلب الأمر اختبارات على نطاقٍ أوسع لتحديد أدائها الفعلي.
أمَّا بالنسبة لـ "أو 3" نفسه، فإن معظم المعلومات المتوفرة عنه مستقاة من مقطع فيديو بثته "أوبن أيه آي"، ما يعني أن معظم الأشخاص خارج الشركة ليست لديهم فكرة عما هو قادر عليه حقاً (باستثناء فرق السلامة الخارجية التي مُنحت حق الوصول المبكر). ونظراً لهذا الشُح في المعلومات، يبقى من الصعب تكوين تصور دقيق عن قدرات النموذج حتى يُطلق للجمهور. ومع ذلك، فإن ما تضمنه الإعلان يظهر مبدئياً أنه قد يمثّل "تحولاً جذرياً" في مسار تحقيق الذكاء الاصطناعي العام.