لماذا تدفع جوجل وأوبن أيه آي الملايين للحصول على بيانات منصة ريديت؟

5 دقيقة
كيف يؤثّر نقص بيانات التدريب في كفاءة نماذج الذكاء الاصطناعي التوليدي؟
حقوق الصورة: shutterstock.com/Omelchenko

مع المنافسة المتصاعدة بين شركات الذكاء الاصطناعي لتحقيق الريادة في صناعة الذكاء الاصطناعي، لا ينظر الكثير من المستخدمين إلى ما وراء كواليس هذه الصناعة، والسبب هو أن هذه الشركات غالباً ما تخطف الأضواء كلّها بأحداثها الإعلامية والإشاعات التي تدور حول منتجاتها وآخر التطورات حولها، ما يجعل الكثير من اللاعبين الآخرين خارج الأضواء ومن ضمنهم شركة تُعدّ من أبرز الشركات التي قد تمثّل المحرك الأساسي لكل نموذج ذكاء اصطناعي توليدي.

فما هي الشركة التي تسعى كبرى شركات الذكاء الاصطناعي للتعاون معها؟ وما الذي يجعلها محط أنظار عمالقة الصناعة؟ وما هو نهجها الذي جعلها تحقق أرباحاً أول مرة منذ إنشائها قبل 20 عاماً؟

فترة حمى الذهب: مَن باع الأواني المعدنية والمجارف هو مَن أصبح ثرياً

قبل أن نتعرف إلى هذه الشركة، إليك قصة قصيرة من التاريخ لفهم أكثر إدراكاً لما يُكتب لاحقاً. في أثناء حمى الذهب في ولاية كاليفورنيا الأميركية في ثمانينيات القرن التاسع عشر، كان الرابحون الحقيقيون هم أشخاص لم يعملوا في عمليات التعدين مطلقاً، بل أعمالهم الجانبية هي ما جعلتهم أثرياء للغاية بطريقة تفوق حتى العمل في التعدين نفسه.

على سبيل المثال، كان صموئيل برينان (Samuel Brannan) أغنى رجل في كاليفورنيا خلال السنوات الأولى من حمى الذهب، ومصدر ثروته هو فتحه متاجر الإمدادات التي وفّرت مستلزمات التنقيب مثل المجارف والأواني المعدنية، حيث اشترى معظم هذه الأدوات بثمنٍ لا يتعدى 20 سنتاً وأعاد بيعها مقابل 15 دولاراً للقطعة الواحدة، ما جلب له ثروة طائلة، وبالقفز إلى زمننا الحالي إذا كنا نراهن على الذكاء الاصطناعي كصناعة، فمَن الفائز؟ وأين الفرصة؟

اقرأ أيضاً: كيف جعل تشات جي بي تي شركة أوبن أيه آي لاعباً مهماً في مجال الذكاء الاصطناعي

كيف يتشكل مشهد صناعة الذكاء الاصطناعي؟ ومَن هم اللاعبون الرئيسيون فيه؟

لفهم سبب احتمالية فوز الشركة التي نتحدث عنها في سباق الذكاء الاصطناعي ولماذا أصبحت محط أنظار معظم شركات الذكاء الاصطناعي، ينبغي أولاً أن نفهم كيف يتشكل مشهد صناعة الذكاء الاصطناعي بعيداً عن أعين المستخدمين، حيث نجد في الوقت الحالي أن صناعة الذكاء الاصطناعي تمر بمرحلة نمو سريعة جداً بطريقة مشابهة للأيام الأولى لازدهار عصر الدوت كوم وحالات الاندفاع للاستثمار في شركات التكنولوجيا بشكلٍ مبالغ فيه سواء شركات أو أفراد.

لكن مع ذلك يوجد عدد قليل جداً من الشركات والأفراد حالياً تجني المال بالفعل، والذين يمكن تقسيمهم إلى ثلاثة فئات أساسية، حيث يعدون اللاعبين الرئيسيين في صناعة الذكاء الاصطناعي وهم:

1- مطورو النماذج

مثل شركات أوبن أيه آي وأنثروبيك وحتى ديب سيك الصينية، التي تُعدّ من ضمن أبرز الشركات الأخرى التي تطوّر نماذج الذكاء الاصطناعي الضخمة، ولكن في الوقت نفسه هي بحاجة إلى قدرٍ كبير جداً من البيانات وقوة الحوسبة لتشغيل نماذجهم، ما يعني أنها تنفق حالياً أكثر مما تجني من أرباح.

اقرأ أيضاً: كيف يمكن توظيف التفكير التأملي في تدريب نماذج الذكاء الاصطناعي؟

2- موفرو البنية التحتية

مثل خدمات أمازون ويب سيرفسز (AWS) ومايكروسوفت أزور (Microsoft Azure) وشركات تصنيع المعالجات مثل شركة إنفيديا (Nvidia)، حيث تبيع هذه الخدمات والشركات قوة الحوسبة والتخزين السحابي ووحدات معالجة الرسومات التي تحتاج إليها نماذج الذكاء الاصطناعي للعمل. وعلى الرغم من أنهم يجنون المال، فإن نماذج أعمالهم تتوقف على مدى تطور شركات الذكاء الاصطناعي المطورة للنماذج.

3- مالكو البيانات

هذه الفئة هي من تشكّل رأس الرمح في مشهد الذكاء الاصطناعي، لماذا؟ لأن نماذج الذكاء الاصطناعي تحتاج باستمرار إلى بيانات تدريب عالية الجودة لتصبح أكثر ذكاءً. ولكن المشكلة أن معظم البيانات المتاحة الآن في فضاء الإنترنت العام ذات جودة رديئة، وإن وُجِدت بيانات عالية الجودة فهي محمية بحقوق الملكية ولديها نسق واحد غير متنوع بشكلٍ كبير، مثل بيانات منافذ الأخبار التي تركّز على السياسة أو الرياضة بالتحديد.

ومن ثَمَّ باستخدام قصة حمى الذهب كمثال، فإن الفرصة الحقيقية لمَن قد يربح في نهاية سباق الذكاء الاصطناعي ستكون من نصيب فئتين هما: موفرو البنية التحتية ومالكو البيانات، وقد حُجز بما أن سوق موفري البنية التحتية للاعبين كِبار منذ فترة طويلة، لكن سوق مالكي البيانات لا تزال قابلة لدخول لاعبين جُدد يمتلكون مجموعات البيانات الخام التي تفتقدها بشدة شركات الذكاء الاصطناعي لتدريب نماذجها.

اقرأ أيضاً: هل يمثّل «أوبريتور» الذي أطلقته «أوبن أيه آي» أول تطبيق عملي لمفهوم «الوكلاء الفائقين»؟

إذاً، مَن هو هذا الفائز الذي لا يتحدث عنه أحد؟ الإجابة هي: منصة ريديت (reddit.com)، وإذا لم تكن مستخدماً لها من قبل فهي منصة تأسست عام 2005، وتقع ضمن فئة منصات التواصل الاجتماعي، حيث تُعدّ منصة لمناقشة كل ما يخطر على بالك من مواضيع عبر آلاف المنتديات الفرعية، وغالباً ما تُوصف مجازياً بأنها الصفحة الأولى للإنترنت، كانعكاس لدورها كمجمع رئيسي لمحتوى الويب.

وتشتهر المنصة بحركة المرور الكثيفة، حتى ظهر مصطلح تأثير ريديت (Reddit Effect)، حيث تشهد المواقع زيادة في حركة المرور بعد ربطها بالمنصة ما يؤكد تأثيرها ودورها كبوابة إلى فضاء الإنترنت الأوسع، بالإضافة إلى ذلك ما يُميّز المنصة عن بقية المواقع أو المنصات الأخرى هو نسبة المشاركة النشطة من أشخاص حقيقيين ينشرون ويعلقون على المنشورات، ويتفاعلون معها بحسب أهميتها لدى الفئة التي تُناقش الموضوع المحدد.

اقرأ أيضاً: يحلّل المشاعر ويقيس الأداء: تعرف على تطبيقات التعلم الآلي بالشبكات الاجتماعية

كيف استثمرت ريديت اهتمام شركات الذكاء الاصطناعي ببياناتها؟

لأن مالكي منصة ريديت أدركوا جيداً ما لديهم من ثروة، فقد سارعوا إلى حمايتها ودفع خوارزميات حصد البيانات وشركات محركات البحث بعيداً عن المنصة بهدف توليد الإيرادات من بياناتها وترخيصها لمَن يرغب في استخدامها لأغراض تجارية. وهذا ما جعل شركات بارزة مثل شركة جوجل أن تصبح أول شركة تقنية كبرى توقّع اتفاقية ترخيص بيانات مع المنصة بمبلغ وصل إلى نحو 60 مليون دولار سنوياً.

كما وقّعت شركة أوبن أيه آي صفقة معها في شهر مايو من عام 2024، للوصول إلى بياناتها من أجل تدريب نماذجها اللغوية الكبيرة، وقد كان لهذا الإجراء مفعول السحر، حيث أدّى إلى تحقيقها أول ربح ربع سنوي لها بعد طرح أسهمها للاكتتاب العام عام 2024، حيث نمت إيراداتها بنسبة 68%، بقيمة وصلت إلى نحو 348.4 مليون دولار، وصافي دخل قدره 29.9 مليون دولار.

بالإضافة إلى ذلك، لم تكتفِ منصة ريديت باتفاقيات الترخيص فحسب، بل بدأت بتوسيع قدراتها من خلال الاستحواذ على شركات ناشئة مثل شركة ميمورابل أيه آي (Memorable AI) لدمج الذكاء الاصطناعي في نموذج تشغيلها وتعزيز مكانتها لاعباً رئيسياً في صناعة الذكاء الاصطناعي.

اقرأ أيضاً: ما الدروس التي يجب أن تتعلمها شركات التكنولوجيا من الدعوى التي رفعتها نيويورك تايمز على أوبن أيه آي؟

لماذا تحتاج شركات الذكاء الاصطناعي إلى بيانات منصة ريديت بالتحديد؟

تُعدّ المنصة مهمة للغاية لشركات الذكاء الاصطناعي، حيث تحتاج نماذجها إلى محتوى من إنشاء البشر من أجل التدريب، ويُصادف أن منصة ريديت لديها قدر هائل من مجموعات بيانات المحادثة البشرية، ما يجعلها مورداً قيماً في تطوير نماذج الذكاء الاصطناعي للأسباب التالية:

  • توفير تفاعلات بشرية أصيلة عبر مجموعة واسعة من الموضوعات من آراء المستخدمين وتجاربهم الحقيقية، التي تُعدّ ضرورية لتدريب نماذج الذكاء الاصطناعي لفهم وجهات النظر البشرية الدقيقة وتوليد استجابات أكثر دقة وشخصية.
  • تقدّم المنصة محتوى متنوعاً ومحدّثاً على الدوام، وهما ميزتان ضروريتان لنماذج الذكاء الاصطناعي التي تتطلب مجموعة واسعة من التجارب والآراء البشرية لتحسين أدائها.
  • تعمل المنصة بنظام التصويت من قِبل المستخدمين مؤشراً لجودة المحتوى، ما يُساعد على التمييز بين المحتوى عالي الجودة والمنخفض الجودة، الذي يُعدّ مهماً جداً لأنظمة الذكاء الاصطناعي من أجل تقديم معلومات موثوقة.
  • تُعدّ الطريقة المتبعة في إمكانية التعليق ونشر المنشورات بشكل مجهول الطريقة الأفضل للمستخدمين بالتعبير عن أنفسهم بحرية أكبر، ما من شأنه أن يوفّر لشركات الذكاء الاصطناعي ملاحظات صادقة.

اقرأ أيضاً: كيف تستخدم أداة توليد الفيديو الجديدة من أوبن أيه آي «سورا»؟

شركات الذكاء الاصطناعي لن تفقد شهيتها للبيانات في المستقبل القريب

في حين قد تصبح شركات الذكاء الاصطناعي أكثر كفاءة في ابتداع أساليب جديدة في تدريب نماذجها اللغوية وتقليل حاجتها إلى البيانات الكثيفة، فإنه من غير المرجّح أن يتضاءل إقبالها على استهلاك البيانات في المستقبل القريب، ولكنها قد تواجه الكثير من التعقيدات مع اتجاه المنصات التي تمتلك بيانات عالية الجودة لأن تصبح أكثر حرصاً في منع شركات الذكاء الاصطناعي من الحصول عليها مجاناً.

وبما أن شركات الذكاء الاصطناعي بما لديها من إمكانات تقنية ومالية قد تكون قادرة بطريقة أو أخرى على الحصول عليها بموجب مبدأ الاستخدام العادل، فإنها في النهاية سوف تكون مضطرة إلى إبرام الصفقات مع مالكي هذه البيانات للوصول إلى البيانات الأعلى جودة لتدريب نماذجها بصورة تجعلها أكثر موثوقية لدى المستخدم.

وهو ما يُنبئ بأن ما فعلته منصة ريديت سوف يتكرر كثيراً مع العديد من المنصات الأخرى التي ستكتشف أن لديها مناجم من البيانات المطلوبة بشدة، فقط عليها أن تعرف كيف تحميها، ومن ثَمَّ انتظار شركات الذكاء الاصطناعي التي ستطرق بابها من أجل الحصول على بياناتها، وحينها سيكون لها مطلق الحرية في الحصول على الثمن الذي تريده.

المحتوى محمي