يتمحور الذكاء الاصطناعي حول البيانات. ويتطلب تدريب الخوارزميات حتى تنفذ مهامها المطلوبة منها مقادير ضخمة من البيانات، وتتحدد مخرجات نماذج الذكاء الاصطناعي بما تتلقاه من مدخلاتها. لكن المشكلة تكمن في أن المطورين والباحثين في مجال الذكاء الاصطناعي لا يعرفون الكثير فعلياً عن مصادر البيانات التي يستخدمونها. ومقارنة بتعقيد تطوير نموذج الذكاء الاصطناعي، فإن ممارسات جمع البيانات الخاصة بالذكاء الاصطناعي ما زالت غير ناضجة. وفي أغلب الأحيان، تفتقر مجموعات البيانات الضخمة إلى معلومات واضحة حول محتوياتها ومصادر هذه المحتويات.
غير أن مبادرة منشأ البيانات (The Data Provenance Initiative)، وهي مجموعة مؤلفة من أكثر من 50 باحثاً من الأوساط الأكاديمية والصناعية، أرادت إصلاح هذه المشكلة. وقد أراد أعضاؤها، ببساطة، معرفة مصادر البيانات المستخدمة في بناء الذكاء الاصطناعي، ولهذا أجروا عملية تدقيق لما يقرب من 4,000 مجموعة بيانات عمومية تشمل أكثر من 600 لغة و67 دولة وتمتد على مدى 3 عقود من الزمن، وقد نشأت هذه البيانات عن 800 مصدر مختلف وما يقرب من 700 مؤسسة مختلفة.
تُبين نتائج الباحثين، الذين أطلعوا إم آي تي تكنولوجي ريفيو عليها حصرياً، توجهاً مثيراً للقلق: فالممارسات المتعلقة بالبيانات في مجال الذكاء الاصطناعي تخاطر بتركيز النفوذ على نحو بالغ في أيدي مجموعة صغيرة من الشركات التكنولوجية المهيمنة على هذا المجال.
اقرأ أيضاً: ما هي أنواع البيانات التي ينبغي عدم حفظها أبداً على السحابة؟
نفوذ يتركز في أيدي شركات التكنولوجيا الكبيرة
في بدايات العقد الثاني من هذا القرن، كانت مجموعات البيانات تنشأ من مصادر متنوعة، كما يقول الباحث في معهد ماساتشوستس للتكنولوجيا (إم آي تي)، شاين لونغبري، المشارك في المشروع.
الاستخدام المتزايد لبيانات الويب وبيانات منصات التواصل الاجتماعي والبيانات الاصطناعية في النماذج المبنية على النصوص.
المصدر: مبادرة منشأ البيانات
لم تنشأ البيانات فقط من الموسوعات وصفحات الويب، بل أيضاً من مصادر مثل محاضر الاجتماعات البرلمانية، واجتماعات مناقشة النتائج المالية التي تجري عبر الهاتف أو الويب، وتقارير الطقس. في ذلك الحين، كان يجري انتقاء مجموعات البيانات الخاصة بالذكاء الاصطناعي من مصادر مختلفة وجمعها خصيصاً لتلائم المهام الفردية، على حد قول لونغبري.
اقرأ أيضاً: كيف يؤثّر نقص بيانات التدريب في كفاءة نماذج الذكاء الاصطناعي التوليدي؟
بعد ذلك، في عام 2017، جرى اختراع المحولات (transformers) التي تمثل البنية الأساسية للنماذج اللغوية، وبدأ قطاع الذكاء الاصطناعي يشهد تحسناً في الأداء مع ازدياد ضخامة النماذج ومجموعات البيانات. حالياً، يجري بناء معظم مجموعات البيانات الخاصة بالذكاء الاصطناعي من خلال جمع المواد من الإنترنت بكميات كبيرة دون تمييز. وقد كانت شبكة الإنترنت منذ عام 2018 المصدر الرئيسي لمجموعات البيانات المستخدمة في الوسائط جميعها، مثل الصوت والصور والفيديو، وظهرت فجوة بين مجموعات البيانات التي جرى جمعها بكميات ضخمة دون تمييز، ومجموعات البيانات التي جرى جمعها بأسلوب أكثر تنظيماً، وأخذت هذه الفجوة تتوسع.
الاستخدام المتزايد لبيانات الويب وبيانات منصات التواصل الاجتماعي والبيانات الاصطناعية في النماذج المبنية على الكلام.
المصدر: مبادرة منشأ البيانات
يقول لونغبري: "في عمليات تطوير النماذج الأساسية، لا يبدو أن ثمة ما هو أهم من معيار الحجم وتنوع البيانات والويب بالنسبة إلى قدرات النموذج". لقد أدت الحاجة إلى ضخامة النموذج إلى تعزيز استخدام البيانات الاصطناعية إلى درجة فائقة.
وشهدت الأعوام القليلة الفائتة أيضاً صعود نماذج الذكاء الاصطناعي التوليدي المتعددة الأوساط، التي تستطيع توليد مقاطع الفيديو والصور. وعلى غرار النماذج اللغوية الكبيرة، تحتاج هذه النماذج إلى أكبر قدر ممكن من البيانات، وقد أصبح المصدر الأفضل لهذه البيانات هو منصة يوتيوب (YouTube).
بالنسبة إلى نماذج الفيديو، يمكنك الاطلاع على هذا الشكل البياني، حيث تعود نسبة 70% من البيانات لمجموعات البيانات الخاصة بالكلام والصور على حد سواء إلى مصدر واحد.
مصادر البيانات في النماذج المبنية على الفيديو.
المصدر: مبادرة منشأ البيانات
قد يكون هذا أمراً رائعاً بالنسبة إلى شركة ألفابت (Alphabet)، الشركة الأم لشركة جوجل، التي تمتلك منصة يوتيوب. في حين أن النصوص موزعة في أنحاء شبكة الويب كافة، ويتحكم فيها الكثير من المنصات ومواقع الويب المختلفة، فإن الأغلبية الساحقة من بيانات الفيديو تتركز في منصة واحدة.
يقول لونغبري: "يؤدي هذا إلى استحواذ شركة واحدة على سيطرة شبه مطلقة على نسبة كبيرة جداً من أهم البيانات على الويب".
وبما أن جوجل تعمل أيضاً على تطوير نماذج ذكاء اصطناعي خاصة بها، فإن الميزة التنافسية الهائلة التي تتمتع بها تثير التساؤلات أيضاً حول أسلوب الشركة المستقبلي في إتاحة هذه البيانات للشركات المنافسة، على حد قول المديرة التنفيذية المشاركة في معهد أيه آي ناو (AI Now Institute)، سارة مايرز ويست.
تقول مايرز ويست: "من المهم أن ننظر إلى البيانات بوصفها شيئاً يجري إنشاؤه عبر عمليات محددة، لا بوصفها نوعاً من الموارد التي تنشأ على نحو طبيعي".
وتضيف قائلة: "إذا كانت مجموعات البيانات التي تعتمد عليها معظم أنظمة الذكاء الاصطناعي التي نتفاعل معها تعبر عن نوايا الشركات الكبيرة التي تسعى إلى تحقيق الأرباح وتصاميمها، فإن هذا من شأنه أن يعيد تشكيل البنى التحتية لعالمنا بطرق تعكس مصالح هذه الشركات الكبيرة".
تقول نائبة رئيس الأبحاث في شركة التكنولوجيا كوهير (Cohere)، سارة هوكر، وهي أيضاً من أعضاء مبادرة منشأ البيانات، إن هذه الثقافة الأحادية تثير أيضاً التساؤلات حول مدى دقة التعبير عن التجربة البشرية في مجموعات البيانات وأنواع النماذج التي نبنيها.
يرفع الناس مقاطع الفيديو إلى منصة يوتيوب بحيث تكون مُوَجَّهة إلى جمهور محدد، وغالباً ما تهدف تصرفاتهم في تلك المقاطع إلى إحداث تأثير محدد للغاية. تقول هوكر: "هل تورد البيانات التفاصيل الدقيقة للبشرية كلها والطرق المختلفة كلها التي تعبر عن وجودنا؟"
اقرأ أيضاً: نقل البيانات أسرع من الضوء: هل هذا ممكن؟
قيود مخفية
عادة ما تمتنع شركات الذكاء الاصطناعي عن مشاركة البيانات التي استخدمتها في تدريب نماذجها. ومن الأسباب التي تدعوها إلى ذلك رغبتها في حماية ميزتها التنافسية. والسبب الآخر هو أنه نتيجة الطريقة المعقدة وغير الشفافة التي يجري وفقها تجميع مجموعات البيانات ووضعها في حزم منظمة وتوزيعها، فمن المحتمل أن هذه الشركات لا تعرف حتى من أين جاءت هذه البيانات كلها.
من المرجح أيضاً أن هذه الشركات لا تمتلك معلومات كاملة حول أي قيود مفروضة على كيفية استخدام هذه البيانات أو مشاركتها. وقد وجد الباحثون في مبادرة منشأ البيانات أن مجموعات البيانات غالباً ما تكون مصحوبة بتراخيص أو شروط تقييدية، وهو ما من شأنه أن يحد من استخدامها للأغراض التجارية على سبيل المثال.
هنا، يمكن أن نرى أن 25% من مجموعات البيانات النصية و33% من مجموعات البيانات الخاصة بالكلام و32% من مجموعات البيانات الخاصة بالفيديو مُرَخّصة على نحو غير تجاري، ما يعني أنها قابلة للاستخدام للأغراض الأكاديمية أو الإبداعية، لكن ليس لكسب المال.
تراخيص مجموعات البيانات، مصنفة وفق الأوساط
المصدر: مبادرة منشأ البيانات
لكن الأمور تصبح أكثر غموضاً مع التعمق في الدراسة. فمجموعات عديدة من البيانات تتضمن أيضاً قيوداً مخفية في إحدى مصادرها. وتتضمن نسبة تتجاوز 78% من مجموعات البيانات قيوداً غير تجارية مطبقة عليها نفسها أو على أحد مصادرها.
تقول هوكر: "إن هذا الافتقار إلى الاتساق في أصول البيانات يجعل من الصعب جداً على مطوري البرمجيات اتخاذ الخيار الصحيح بشأن البيانات التي يجب استخدامها".
يضيف لونغبري قائلاً إنه بسبب هذا الأمر أيضاً أصبح من المستحيل تقريباً أن نضمن بصورة تامة عدم تدريب النموذج على بيانات محمية بموجب حقوق التأليف والنشر.
في الآونة الأخيرة، أبرمت شركات مثل أوبن أيه آي وجوجل صفقات حصرية لمشاركة البيانات مع بعض مؤسسات النشر، ومنصات المنتديات الكبرى مثل ريديت (Reddit)، ومنصات التواصل الاجتماعي على الويب. لكن هذا أصبح وسيلة أخرى لزيادة تركيز النفوذ لديها.
يقول لونغبري: "يمكن أن تتسبب هذه العقود الحصرية بتقسيم الإنترنت إلى مناطق متنوعة تحدد من يستطيع الوصول إليها ومن لا يستطيع".
يستفيد من هذا التوجه أكبر الشركات في مجال الذكاء الاصطناعي التي تستطيع تحمل تكاليف صفقات كهذه على حساب الآخرين، من الباحثين والشركات اللاربحية والشركات الأصغر، الذين سيواجهون صعوبات جمة للوصول إلى البيانات.
كما تمتلك الشركات الأضخم أفضل الموارد الضرورية لتنفيذ عمليات التصفح الآلي المنظم للويب بحثاً عن البيانات اللازمة لمجموعات البيانات.
يقول لونغبري: "هذه موجة جديدة من الوصول غير المتماثل إلى الموارد، وهي ظاهرة لم نشهد ظهورها بهذا القدر على شبكة الإنترنت المفتوحة".
الغرب ضد بقية العالم
إضافة إلى ما سبق، تتسم البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي بأن الأغلبية العظمى منها تعود إلى العالم الغربي. وقد وجد الباحثون أن أكثر من 90% من مجموعات البيانات التي حللوها نشأت من أوروبا وأميركا الشمالية، على حين نشأت نسبة أقل من 4% من إفريقيا.
تقول هوكر: "تعكس مجموعات البيانات هذه جزءاً واحداً فقط من عالمنا وثقافتنا، لكنها تتجاهل الأجزاء الأخرى تماماً".
مجموعات البيانات مصنفة وفق بلد المنشأ
أكثر من 90% من مجموعات البيانات التي حللها الباحثون يعود منشؤها إلى أوروبا وأميركا الشمالية، على حين نشأت نسبة أقل من 4% من إفريقيا.
المصدر: الحدود الرسمية وفقاً للبنك الدولي
يمكن تفسير هيمنة اللغة الإنجليزية على بيانات التدريب جزئياً من خلال الانتشار الواسع النطاق للغة الإنجليزية عبر الإنترنت، فما زالت نسبة تزيد على 90% من شبكة الإنترنت باللغة الإنجليزية، ولا يزال هناك الكثير من الأماكن على وجه الأرض التي تعاني ضعفاً أو انعداماً في الاتصال بالإنترنت، على حد قول المسؤولة الرئيسية للأخلاقيات في شركة هاغينغ فيس (Hugging Face)، جيادا بيستيلي، التي لا تنتمي إلى فريق البحث. لكن السبب الآخر هو الراحة في العمل، وتضيف: إن بناء مجموعات البيانات بلغات أخرى وأخذ الثقافات الأخرى في الاعتبار يتطلبان نية واعية وجهوداً كبيرة.
يصبح تركيز مجموعات البيانات هذه في نطاق المصادر الغربية واضحاً على وجه الخصوص في النماذج المتعددة الأوساط. فعندما يتلقى نموذج ذكاء اصطناعي تعليمات نصية لتوليد مشاهد وأصوات متعلقة بحفل زفاف، على سبيل المثال، فمن المحتمل أن يتمكن فقط من تمثيل حفلات الزفاف الغربية، لأنه لم يتدرب على أي شيء آخر، على حد قول هوكر.
من شأن هذا أن يعزز التحيزات، كما يمكن أن يؤدي إلى بناء نماذج ذكاء اصطناعي تروّج لرؤية عالمية تتمحور حول الولايات المتحدة، ما يؤدي إلى محو اللغات والثقافات الأخرى.
تقول هوكر: "نحن نستخدم هذه النماذج في أنحاء العالم كافة، وثمة فرق هائل بين العالم الذي نراه، وما هو غير مرئي بالنسبة إلى هذه النماذج".