عندما طرحت شركة ديب سيك (DeepSeek) الصينية نموذجاً لغوياً كبيراً يحمل اسم "آر 1" (R1) مؤخراً، أحدثت صدمة في صناعة التكنولوجيا الأميركية. فلم يكن آر 1 قادراً على مجاراة أفضل النماذج الأميركية وحسب، بل إن بناءه تطلب تكاليف ضئيلة مقارنة بتكاليف تلك النماذج، وهو مجاني أيضاً.
خسرت سوق الأسهم الأميركية تريليون دولار، ووصف الرئيس ترامب ما حدث بأنه جرس إنذار، وازداد الضجيج الإعلامي مرة أخرى. وفي منشور على منصة إكس (X)، قال أكبر مستثمر في وادي السيليكون، مارك أندريسن: "إن نموذج آر 1 من ديب سيك هو أحد أكثر الإنجازات غير المسبوقة إثارة للدهشة والإعجاب على الإطلاق، وباعتباره مفتوح المصدر، فهو هدية بالغة الأهمية للعالم".
لكن ابتكارات ديب سيك ليست المسألة الوحيدة المهمة هنا. فمن خلال نشر الشركة تفاصيل حول كيفية بناء النموذج آر 1 ونموذج سابق يسمى "في 3" (V3) وإصدار هذه النماذج مجاناً، أظهرت الشركة للجميع أن بناء نماذج التفكير أسهل بكثير مما كنا نعتقد. لقد حسمت الشركة صدارتها أمام أبرز المختبرات في العالم.
اقرأ أيضاً: لماذا ترى شركات الذكاء الاصطناعي في ديب سيك «جرس إنذار»؟
جرس إنذار فعلي
دفعت هذه الأخبار المنافسين في كل مكان إلى التحرك. فمؤخراً، أعلنت شركة التكنولوجيا الصينية العملاقة علي بابا (Alibaba) عن إصدار جديد من نموذجها اللغوي الكبير كوين (Qwen)، كما أعلن معهد آلين للذكاء الاصطناعي (AI2)، وهو أحد المختبرات غير الربحية الرائدة في الولايات المتحدة، عن تحديث لنموذجه اللغوي الكبير تولو (Tulu). وتزعم كلتا المؤسستين أن أحدث نماذجهما يتفوق على ما يكافئ نموذج ديب سيك.
وصف الشريك المؤسس والرئيس التنفيذي لشركة أوبن أيه آي، سام ألتمان، النموذج "آر 1" بأنه مثير للإعجاب -قياساً إلى كلفته- لكنه رد بوعد متفائل: "من الواضح أننا سنطرح نماذج أفضل بكثير". بعد ذلك، طرحت أوبن أيه آي "تشات جي بي تي غوف" ( ChatGPT Gov)، وهو نسخة مصممة خصيصاً لتلبية الاحتياجات الأمنية للوكالات الحكومية الأميركية من بوت الدردشة الخاص بالشركة، في إشارة واضحة إلى المخاوف من أن تطبيق ديب سيك كان يرسل البيانات إلى الصين. وهناك المزيد في المستقبل.
deepseek's r1 is an impressive model, particularly around what they're able to deliver for the price.
we will obviously deliver much better models and also it's legit invigorating to have a new competitor! we will pull up some releases.
— Sam Altman (@sama) شاهد على إكس
أصبحت ديب سيك فجأة الشركة التي يجب التغلب عليها للوصول إلى الصدارة. ما الذي فعلته الشركة بالضبط لزعزعة عالم التكنولوجيا إلى هذا الحد؟ هل ثمة ما يبرر كل هذا الضجيج الإعلامي؟ وما الذي يمكن أن نتعلمه من هذه الضجة حول ما هو قادم؟ إليك فيما يلي ما تحتاج إلى معرفته.
اقرأ أيضاً: تشات جي بي تي وديب سيك آر 1: أيّهما أفضل؟
خطوات التدريب
لنبدأ بتوضيح كيفية تدريب النماذج اللغوية الكبيرة. هناك مرحلتان رئيسيتان، تُعرفان بمرحلة التدريب المسبق والتدريب اللاحق. التدريب المسبق هو المرحلة التي يتحدث عنها معظم الناس. في هذه العملية، يجري تلقيم شبكة عصبونية مراراً وتكراراً بالمليارات من المستندات -أعداد هائلة من مواقع الويب والكتب ومخازن الرموز البرمجية وغيرها- حتى تتعلم توليد نص يشبه المادة المصدرية، كلمة تلو الأخرى. وفي نهاية هذه المرحلة، نحصل على ما يُعرف بالنموذج الأساسي.
التدريب المسبق هو المرحلة التي تتضمن معظم العمل، ويمكن أن تكلف هذه المرحلة مبالغ ضخمة من المال. لكن، كما أشار المؤسس المشارك في أوبن أيه آي والمدير السابق للذكاء الاصطناعي في شركة تيسلا، أندريه كارباثي، في حديث له خلال مؤتمر مايكروسوفت بيلد (Microsoft Build) العام الماضي: "النماذج الأساسية ليست أنظمة مساعدة. إنها فقط تعمل على استكمال المستندات على نحو متوافق مع مستندات الإنترنت".
يتطلب تحويل نموذج لغوي كبير إلى أداة مفيدة عدداً من الخطوات الإضافية. هذه هي مرحلة التدريب اللاحق، حيث يتعلم النموذج تنفيذ مهام محددة مثل الإجابة عن الأسئلة (أو الإجابة عن الأسئلة خطوة تلو الأخرى، كما هو الحال مع نموذج أو 3 [o3] من أوبن أيه آي وآر 1 من ديب سيك). كانت الطريقة المعتمَدة لتحقيق هذا الأمر في الأعوام القليلة الماضية تتلخص بتعديل نموذج أساسي من خلال تدريبه على محاكاة أمثلة من أزواج الأسئلة والإجابات التي تقدمها أعداد كبيرة من المختبرين البشريين. تُعرف هذه الخطوة باسم الضبط الدقيق الخاضع للإشراف (supervised fine-tuning).
بعد ذلك، اتخذت أوبن أيه آي خطوة رائدة أخرى، حيث يعمل المختبرون البشر أيضاً على تقييم عينات من إجابات النموذج، وتُستخدم الدرجات التي حصلت عليها تلك الإجابات لتدريب النموذج على إنتاج إجابات مستقبلية أقرب إلى تلك التي تحصل على درجات جيدة وأبعد عن تلك التي لا تحصل على درجات جيدة. تُعرف هذه التقنية باسم التعلم المعزز بالملاحظات البشرية (RLHF)، وهي ما يجعل بوتات الدردشة مثل تشات جي بي تي (ChatGPT) بارعة للغاية في عملها. وتُستخدم هذه التقنية حالياً في أوساط هذه الصناعة كلها.
لكن خطوات التدريب اللاحق هذه تستغرق وقتاً طويلاً. وما أظهره ديب سيك هو أنه يمكن الحصول على النتائج نفسها دون الاستعانة بالبشر على الإطلاق، في أغلب الأحيان على الأقل. تستعيض شركة ديب سيك عن الضبط الدقيق الخاضع للإشراف وتقنية التعلم المعزز بالملاحظات البشرية بخطوة مؤتمتة بالكامل للتعلم المعزز. حيث تعتمد الشركة في توجيه نماذجها على درجات التقييم التي ينتجها الكمبيوتر بدلاً من الملاحظات البشرية.
يقول مدير أبحاث سابق في شركة علي بابا وهو الآن المؤسس الشريك والرئيس التنفيذي للشركة الناشئة في مجال برمجة أنظمة الذكاء الاصطناعي كودو (Qodo) والتي مقرها إسرائيل، إيتامار فريدمان: "إن عدم الاعتماد على الملاحظات البشرية أو تقليل الاعتماد عليها، هو أمر في غاية الأهمية. فأنت تدرب النماذج بالكامل تقريباً دون الحاجة إلى تولي البشر هذا العمل".
اقرأ أيضاً: جوجل وأوبن أيه آي في سباق محموم لرسم ملامح مستقبل الذكاء الاصطناعي
العمالة زهيدة التكلفة
يتمثل الجانب السلبي لهذا النهج في أن أجهزة الكمبيوتر تجيد تقييم الإجابات عن الأسئلة المتعلقة بالرياضيات والبرمجة، لكنها ليست بارعة في تقييم الإجابات عن الأسئلة المفتوحة أو الأسئلة الأكثر اتساماً بأنها شخصية. لهذا السب، فإن أداء "آر 1" جيد على وجه الخصوص في اختبارات الرياضيات والبرمجة. ولكي تتمكن ديب سيك من تدريب نماذجها على الإجابة عن مجموعة أوسع من الأسئلة غير المتعلقة بالرياضيات أو أداء المهام الإبداعية، لا يزال يتعين عليها أن تطلب من الأشخاص تقديم الملاحظات.
لكن حتى هذا يعد أقل تكلفة في الصين. تقول نائبة الرئيس في شركة الذكاء الاصطناعي آبن (Appen) الأسترالية والرئيسة السابقة للاستراتيجية في كل من فرع أمازون ويب سيرفيسز في الصين وشركة التكنولوجيا الصينية العملاقة تينسنت (Tencent)، سي تشين: "مقارنة بالأسواق الغربية، فإن تكلفة إنشاء بيانات عالية الجودة أقل في الصين، وهناك مجموعة أكبر من الكفاءات الحاصلة على مؤهلات جامعية في مجالات الرياضيات أو البرمجة أو الهندسة".
استخدمت ديب سيك هذا النهج لبناء نموذج أساسي، يسمى "في 3" (V3)، ينافس نموذج أوبن أيه آي الرائد "جي بي تي 4 أو" (GPT-4o). أصدرت الشركة "في 3" قبل شهر. ومؤخراً، انتهت الشركة من بناء النموذج "آر 1" بالاعتماد على النموذج "في 3"، وهو النموذج الجديد الذي يضاهي نموذج "أو 1" من أوبن أيه آي.
كي تتمكن ديب سيك من بناء "آر 1"، اعتمدت في عملها على النموذج "في 3"، حيث قررت تشغيل حلقة التعلم المعزز لديه مراراً وتكراراً. وفي عام 2016، أظهرت شركة جوجل ديب مايند أن هذا النوع المؤتمت من أسلوب التجربة والخطأ، من دون أي مدخلات بشرية، قد يتيح المجال أمام نموذج لممارسة الألعاب اللوحية يؤدي خطوات عشوائية، ويخضع للتدريب على التغلب على الأساتذة الكبار. تتبع ديب سيك نهجاً مماثلاً لهذا مع النماذج اللغوية الكبيرة، حيث تتعامل مع الإجابات المحتملة على أنها حركات محتملة في اللعبة.
في البداية، لم ينتج النموذج إجابات جرى التوصل إليها من خلال التعامل مع الأسئلة خطوة تلو الأخرى، كما أرادت ديب سيك. لكن من خلال تقييم عينة إجابات النموذج تلقائياً، دفعته عملية التدريب شيئاً فشيئاً نحو السلوك المطلوب.
في نهاية المطاف، أنتجت ديب سيك نموذجاً حقق أداءً جيداً وفق عدد من المقاييس المعيارية. لكن هذا النموذج، المسمى "آر 1-زيرو" (R1-Zero)، قدم إجابات تصعب قراءتها وكانت مكتوبة بمزيج من اللغات المتعددة. وبهدف إجراء تعديل أخير عليه، أدرجت ديب سيك ضمن عملية التعلم المعزز مجموعة بيانات صغيرة مكونة من عينة من الإجابات النموذجية التي قدمها أشخاص من البشر. أدى تدريب "آر 1-زيرو" على تلك هذه الإجابات إلى إنتاج النموذج الذي أطلقت عليه ديب سيك اسم "آر 1".
ثمة ما هو أكثر من ذلك. فقد طورت ديب سيك أيضاً خوارزمية جديدة تسمى "تحسين السياسة النسبية للمجموعة" (Group Relative Policy Optimization) أو أختصاراً "جي آر بي أو" (GRPO) كي تجعل استخدامها للتعلم المعزز فعالاً قدر الإمكان. وقد استخدمت الشركة هذه الخوارزمية للمرة الأولى قبل عام، لبناء نموذج يسمى "ديب سيك ماث" (DeepSeekMath).
سنتخطى التفاصيل، فما عليك سوى معرفة أن التعلم المعزز يتضمن حساب درجة التقييم لتحديد إن كانت الخطوة المحتملة جيدة أو سيئة. تتطلب العديد من تقنيات التعلم المعزز الحالية نموذجاً منفصلاً بالكامل لإجراء هذا الحساب. في حالة النماذج اللغوية الكبيرة، هذا يعني نموذجاً ثانياً قد يكون مكلفاً في بنائه وتشغيله مثل النموذج الأول. بدلاً من استخدام نموذج ثانٍ للتنبؤ بالنتيجة، تجري خوارزمية "جي آر بي أو" تخميناً مدروساً. هذا أسلوب منخفض التكلفة، لكنه دقيق بما يكفي للعمل.
نهج شائع
إن استخدام ديب سيك للتعلم المعزز هو الابتكار الرئيسي الذي تصفه الشركة في ورقتها البحثية المتعلقة بالنموذج "آر 1"، لكنها ليست الشركة الوحيدة التي تختبر هذه التقنية. فقبل أسبوعين من إطلاق "آر 1"، أعلن فريق في مركز أبحاث مايكروسوفت في آسيا عن نموذج يسمى "آرستار-ماث" (rStar-Math)، خضع للتدريب بطريقة مماثلة.
يقول المؤسس والرئيس التنفيذي لشركة كلاريفاي (Clarifai) للذكاء الاصطناعي، مات زايلر: "لقد حقق هذا النموذج قفزات هائلة مماثلة في الأداء".
كما بنت شركة أيه آي تو (AI2) نموذجها تولو (Tulu) باستخدام تقنيات التعلم المعزز الفعالة (لكنها فعلت ذلك بالإضافة إلى الخطوات التي ينفذها البشر مثل الضبط الدقيق الخاضع للإشراف والتعلم المعزز بالملاحظات البشرية، لا بدلاً منها). وتحثّ شركة هاغينغ فيس (Hugging Face) الأميركية الخطى لاستنساخ "آر 1" باستخدام النموذج "أوبن آر 1" (OpenR1)، ونسخة مشابهة لنموذج ديب سيك، والذي تأمل هاغينغ فيس أنه سيكشف المزيد من أسرار عمل "آر 1".
والأكثر من ذلك، من المعروف أن الشركات الكبرى مثل أوبن أيه آي وجوجل ديب مايند وأنثروبيك (Anthropic) ربما تستخدم بالفعل أسلوبها الخاص المشابه لأسلوب ديب سيك لتدريب جيلها الجديد من النماذج. يقول زايلر: "أنا متأكد من أنهم يفعلون الشيء نفسه تقريباً، ولكن سيكون لديهم أسلوبهم الخاص".
لكن لدى ديب سيك أكثر من حيلة في جعبتها، فقد دربت نموذجها الأساسي "في 3" على تنفيذ ما يسمى بالتنبؤ المتعدد الرموز (multi-token prediction)، حيث يتعلم النموذج التنبؤ بسلسلة من الكلمات في وقت واحد بدلاً من كلمة واحدة في كل مرة. هذا التدريب أقل تكلفة وتبين أنه يعزز الدقة أيضاً. يقول زايلر: "إذا فكرت في طريقة كلامك، عندما تكون في منتصف الجملة، فإنك تعرف ما ستكون عليه بقية الجملة. يجب أن تكون هذه النماذج قادرة على فعل ذلك أيضاً".
وقد وجدت ديب سيك أيضاً طرقاً أقل تكلفة لإنشاء مجموعات بيانات كبيرة. فلكي تتمكن الشركة من تدريب نموذج العام الماضي، وهو ديب سيك ماث، اعتمدت على مجموعة بيانات مجانية تسمى "كومون كراول" (Common Crawl) -وهي عدد كبير من المستندات التي جرى جمعها من الإنترنت بأسلوب مؤتمت ومنظم- واستخدمت عملية مؤتمتة لاستخراج المستندات التي تتضمن مسائل رياضية فقط. كان هذا الأسلوب أقل تكلفة بكثير من إنشاء مجموعة بيانات جديدة من المسائل الرياضية يدوياً. إضافة إلى أنه كان أكثر فعالية، حيث تتضمن كومون كراول الكثير من المفاهيم والمحتوى المتخصص بالرياضيات أكثر بكثير من أي مجموعة بيانات رياضية متخصصة أخرى متاحة.
وعلى صعيد المكونات المادية والأجهزة، وجدت ديب سيك طرقاً جديدة لتشغيل الرقاقات القديمة، ما سمح لها بتدريب نماذج عالية المستوى دون الحاجة إلى شراء أحدث المكونات المادية في السوق. يقول زايلر إن نصف ابتكاراتهم اعتمدت على الهندسة المباشرة ويضيف: "لديهم بالتأكيد في هذا الفريق عدد من مهندسي وحدات معالجة الرسومات البارعين حقاً".
توفر شركة إنفيديا برنامجاً يسمى "كودا" (CUDA) والذي يستخدمه المهندسون لتعديل إعدادات رقاقاتهم. لكن ديب سيك تجاوزت قيود الرموز البرمجية لهذا البرنامج باستخدام لغة المجمّع المنخفضة المستوى (assembly)، وهي لغة برمجة تتخاطب مع المكونات المادية نفسها، لتتجاوز ما تقدمه إنفيديا في إطار الأدوات الجاهزة للاستخدام بكثير. يقول زايلر: "هذا هو أقصى ما يمكن الوصول إليه في تحسين هذه المكونات المادية. يمكنك فعل ذلك، لكن يصعب على أحد أن يفعل ذلك من الناحية العملية".
إن سلسلة الابتكارات التي قدمتها ديب سيك على نماذج متعددة مثيرة للإعجاب. لكنها تُظهر أيضاً أن ادعاء الشركة بأنها أنفقت أقل من 6 ملايين دولار لتدريب "في 3" لا يفصح عن كل شيء. فقد اعتمدت ديب سيك في بناء "آر 1" و"في 3" على مجموعة كاملة من التكنولوجيا الحالية. يقول فريدمان: "ربما كلفتهم الخطوة الأخيرة -التي أدت إلى إصدار هذه النماذج- 6 ملايين دولار، لكن الأبحاث التي أدت إلى ذلك ربما كلفتهم 10 أضعاف ذلك، إن لم يكن أكثر". وفي منشور على مدونة اختصر الكثير من الضجيج، أشار الشريك المؤسس والرئيس التنفيذي لشركة أنثروبيك، داريو أمودي، إلى أن ديب سيك ربما تمتلك رقاقات بقيمة مليار دولار تقريباً، وهو تقدير يستند إلى تقارير تفيد بأن الشركة استخدمت في الواقع 50,000 وحدة معالجة رسوميات من طراز إنفيديا آتش 100 (Nvidia H100).
اقرأ أيضاً: جوجل وأوبن أيه آي في سباق محموم لرسم ملامح مستقبل الذكاء الاصطناعي
نموذج جديد
لكن لماذا الآن؟ هناك المئات من الشركات الناشئة في أنحاء العالم كافة تحاول بناء الجيل الجديد من النماذج غير المسبوقة. لماذا رأينا سلسلة من نماذج التفكير المنطقي مثل "أو 1" و"أو 3" من أوبن أيه آي، وجيميناي 2.0 فلاش ثينكينغ (Gemini 2.0 Flash Thinking) من جوجل ديب مايند، والآن "آر 1" تظهر تباعاً في غضون أسابيع؟
الجواب هو أن النماذج الأساسية -جي بي تي 4 أو، وجيميناي 2.0، و"في 3"- كلها الآن جيدة بما يكفي لاستخراج سلوك يشبه التفكير المنطقي منها. يقول العالم في هاغينغ فيس، لويس تونستال: "ما يظهره آر 1 هو أنه مع وجود نموذج أساسي قوي بما فيه الكفاية، فإن التعلم المعزز كافٍ لاستخلاص التفكير المنطقي من نموذج لغوي دون أي إشراف بشري".
بعبارة أخرى، ربما تكون الشركات الأميركية الكبرى قد اكتشفت كيفية تحقيق ذلك، لكنها كانت تلتزم الصمت. يقول زايلر: "يبدو أن هناك طريقة ذكية تتيح لك تحويل نموذجك الأساسي، الذي خضع للتدريب مسبقاً، إلى نموذج أكثر قدرة على التفكير بكثير. وحتى ذلك الوقت، لم يكن الإجراء المطلوب لتحويل نموذج مدرب مسبقاً إلى نموذج تفكير معروفاً جيداً. لم يكن معلناً للعامة".
ما يُميّز "آر 1" هو أن ديب سيك كشفت للعالم كيف تمكنوا من تطويره. يقول زايلر: "وقد اتضح أن عملية التطوير ليست مكلفة للغاية. الجزء الصعب هو الحصول على هذا النموذج المدرب مسبقاً في المقام الأول". وكما كشف كارباثي في مؤتمر مايكروسوفت بيلد (Microsoft Build) العام الماضي، فإن التدريب المسبق للنموذج يمثل 99% من العمل والجزء الأكبر من التكلفة.
إذا لم يكن بناء نماذج التفكير المنطقي بالصعوبة التي يتصورها الناس، فيمكننا أن نتوقع انتشار نماذج مجانية أكثر قدرة بكثير مما رأيناه حتى الآن. ويعتقد فريدمان أنه مع انتشار المعرفة العملية بصورة علنية، سيكون هناك المزيد من التعاون بين الشركات الصغيرة، ما يقلل التفوق الذي تمتعت به الشركات الكبرى. ويقول: "أعتقد أن هذا الأمر يمكن أن يمثل لحظة تاريخية".