ما هي حروب العناكب الذكية التي تهدد بجعل محتوى الإنترنت أكثر انغلاقاً؟

غالباً ما نعتبر الإنترنت من الضرورات اليومية المسلم بها. فهي محيط غني بالمعلومات المتاحة في متناول أيدينا، وهو يؤدي عمله بكل سهولة. لكن هذا النظام يعتمد على أسراب من "العناكب الزاحفة"، وهي بوتات تجوب الويب وتزور ملايين المواقع الإلكترونية كل يوم، وتبلغ عما تراه. هذه هي الطريقة التي تُشغّل بها شركة جوجل محركات البحث الخاصة بها، والطريقة التي تتبعها شركة أمازون في تحديد الأسعار التنافسية، والطريقة التي يتبعها موقع خدمات السفر كاياك (Kayak) في تجميع قوائم الرحلات. وبعيداً عن عالم التجارة، تُعد عناكب الويب ضرورية لمراقبة أمن الويب، وتمكين أدوات الوصول المساعدة، والحفاظ على الأرشيفات التاريخية. كما يعتمد عليها الأكاديميون والصحفيون والمجتمعات المدنية في إجراء البحوث الاستقصائية المهمة.

عناكب الويب

عناكب الويب منتشرة في أنحاء الإنترنت كلها. وهي تمثل الآن نصف حركة المرور عبر الإنترنت، وستتفوق قريباً على حركة المرور البشرية. هذا المترو غير المرئي المتحرك عبر الويب ينقل المعلومات من موقع إلى آخر، ليلاً ونهاراً. وفي الآونة الأخيرة، أصبحت تخدم غرضاً آخر: تستخدم شركات مثل أوبن أيه آي (OpenAI) البيانات التي تجلبها عناكب الويب عبر الإنترنت لتدريب أنظمة الذكاء الاصطناعي الخاصة بها، مثل تشات جي بي تي (ChatGPT).

ومن المفهوم أن المواقع الإلكترونية تقاوم الآن خوفاً من أن تساعد هذه الأنواع الغازية -أي عناكب الويب العاملة بالذكاء الاصطناعي- على إزاحتها. لكن هناك مشكلة: هذه المقاومة تهدد أيضاً الشفافية والحدود المفتوحة للويب التي تسمح بازدهار التطبيقات غير العاملة بالذكاء الاصطناعي. ما لم نفكر ملياً في كيفية إصلاح ذلك، فإن الويب سيصبح محصناً بصورة متزايدة بعمليات تسجيل الدخول، وأنظمة حظر الاشتراكات غير المدفوعة، ورسوم الوصول التي لا تكبح الذكاء الاصطناعي فحسب، بل أيضاً "التنوع الحيوي" (اختلاف الأنواع) للمستخدمين الحقيقيين وعناكب الويب المفيدة.

نظام في حالة اضطراب

لكي نفهم المشكلة، من المهم أن نفهم كيفية عمل الويب حتى وقت قريب، عندما كانت عناكب الويب والمواقع الإلكترونية تعمل معاً في تكافل نسبي. لم تكن عناكب الويب تتسبب بالإرباك إلى حد كبير، بل يمكن القول إنها كانت مفيدة، حيث كانت تجلب الأشخاص إلى المواقع الإلكترونية من محركات البحث مثل جوجل أو بينغ مقابل الحصول على بياناتهم. وفي المقابل، كانت المواقع الإلكترونية تفرض قيوداً قليلة على عناكب الويب، حتى إنها كانت تساعدها على التنقل بين صفحاتها المختلفة. تستخدم المواقع الإلكترونية في الماضي والحاضر ملفات قابلة للقراءة آلياً، تسمى ملفات روبوتس (robots.txt)، لتحديد المحتوى الذي تريد من عناكب الويب أن تتركه وشأنه. لكن لم تكن هناك جهود تُذكر لفرض هذه القواعد أو تحديد عناكب الويب التي تتجاهلها. بدت المخاطر منخفضة، لذا لم يبذل القائمون على المواقع الإلكترونية جهداً كافياً لعرقلة عناكب الويب تلك.

أما الآن، فقد أدت شعبية الذكاء الاصطناعي إلى إحداث فوضى في بيئة عمل عناكب الويب.

وكما هو الحال مع الأنواع الغازية، فإن عناكب الويب المخصصة للذكاء الاصطناعي لديها شهية نهمة وغير مدركة للبيانات، حيث تعمل على جمع مقالات ويكيبيديا، والأبحاث الأكاديمية، والمنشورات على موقع ريديت (Reddit)، والمواقع الإلكترونية المخصصة للمراجعات والمدونات. أشكال البيانات كلها موجودة في القائمة: النصوص والجداول والصور والصوت والفيديو. ويمكن استخدام أنظمة الذكاء الاصطناعي التي تنتج عن ذلك (لكن ليس دائماً) بطرق تتنافس مباشرة مع مصادر البيانات. تخشى المواقع الإخبارية من أن تجذب بوتات الدردشة العاملة بالذكاء الاصطناعي قراءها، ويخشى الفنانون والمصممون من أن تغري أنظمة توليد الصور التي تعمل بالذكاء الاصطناعي عملاءهم، وتخشى منتديات البرمجة من أن تحل أنظمة توليد الرموز البرمجية التي تعمل بالذكاء الاصطناعي محل المساهمين البشر فيها.

ورداً على ذلك، بدأت المواقع الإلكترونية ترفض ولوج عناكب الويب إلى أي من صفحاتها الداخلية رفضاً تاماً. والدافع هو نفسه إلى حد كبير: قد تتسبب أنظمة الذكاء الاصطناعي وعناكب الويب التي تدعم عملها، بتقويض المصالح الاقتصادية لأي شخص ينشر المحتوى عبر الإنترنت، باستخدام بيانات المواقع الإلكترونية الخاصة. وقد أشعل هذا الإدراك سلسلة من حروب عناكب الويب التي تدور تحت السطح.

رد الفعل

استجاب ناشرو الويب للذكاء الاصطناعي بثلاثية من الدعاوى القضائية والتشريعات وعلوم الكمبيوتر. حيث بدأ الأمر بسلسلة من الدعاوى القضائية المتعلقة بانتهاك حقوق التأليف والنشر، بما في ذلك دعوى رفعتها صحيفة نيويورك تايمز، ثم تحول إلى موجة من القيود المفروضة على استخدام بيانات المواقع الإلكترونية، بالإضافة إلى تشريعات مثل قانون الاتحاد الأوروبي للذكاء الاصطناعي لحماية قدرة أصحاب حقوق التأليف والنشر على رفض استخدام بياناتهم لأغراض تدريب الذكاء الاصطناعي.

لكن الأحكام القانونية والتشريعية قد تستغرق سنوات، في حين أن عواقب اعتماد الذكاء الاصطناعي فورية. لذا، ريثما يأخذ الأمر مجراه، ركز منشئو البيانات على تشديد القيود المفروضة على تدفق البيانات من المصدر، أي عناكب الويب. فمنذ منتصف عام 2023، فرضت المواقع الإلكترونية قيوداً على وصول عناكب الويب إلى أكثر من 25% من البيانات الأعلى جودة. ومع ذلك، يمكن تجاهل العديد من هذه القيود ببساطة، وفي حين أن الجهات الرئيسية المطورة للذكاء الاصطناعي مثل شركات أوبن أيه آي وأنثروبيك (Anthropic) تدّعي احترام قيود المواقع الإلكترونية، فقد اتُهمت بتجاهلها أو إرباك المواقع الإلكترونية بشدة (منتدى الدعم الفني الرئيسي آي فيكست [iFixit] من بين الجهات التي أطلقت مثل هذه الادعاءات).

والآن، تتجه المواقع الإلكترونية إلى البديل الأخير: تكنولوجيات مكافحة الزحف العنكبوتي عبر الويب. بدأت مجموعة كبيرة من الشركات الناشئة الجديدة مثل تول بت (TollBit) وسكيل بوست (ScalePost) وغيرها، وشركات البنية التحتية للويب مثل كلاود فلير (Cloudflare) (التي من المقدر أنها تدعم 20% من حركة المرور العالمية عبر الإنترنت)، تقدم أدوات لاكتشاف حركة المرور غير البشرية وحظرها وفرض رسوم عليها. تضع هذه الأدوات عقبات تجعل التنقل بين صفحات المواقع أصعب من ذي قبل أو تتطلب من عناكب الويب تسجيل العضوية فيها.

لا تزال هذه التدابير توفر حماية فورية. ففي نهاية المطاف، لا يمكن لشركات الذكاء الاصطناعي استخدام ما لا تستطيع الحصول عليه، بغض النظر عن الكيفية التي تبت فيها المحاكم بشأن حقوق التأليف والنشر والاستخدام العادل. لكن الأثر الناجم عن هذه التدابير هو أن الجهات الكبرى من ناشري المحتوى عبر الإنترنت ومشغلي المنتديات والمواقع الإلكترونية غالباً ما تحصن نفسها في وجه عناكب الويب كلها، حتى تلك التي لا تشكل أي تهديد. وهذا ما يحدث حتى عندما تبرم هذه الجهات صفقات مربحة مع شركات الذكاء الاصطناعي التي ترغب في الحفاظ على حصرية تلك البيانات. في نهاية المطاف، يجري تقسيم الويب إلى مناطق حيث يقل عدد عناكب الويب المرحب بها.

كيف سنخسر؟

مع تسارع وتيرة لعبة القط والفأر هذه، تميل الجهات الفاعلة الكبيرة إلى الصمود أكثر من الجهات الفاعلة الصغيرة. سوف تدافع كل من المواقع الإلكترونية الكبرى والجهات الكبرى الناشرة للمحتوى عن محتواها أمام المحكمة أو تتفاوض على العقود. ويمكن لشركات التكنولوجيا الضخمة أن تتحمل تكاليف ترخيص مجموعات البيانات الضخمة أو تطوير عناكب ويب ذات قدرات عالية للتحايل على القيود. لكن صغار صناع المحتوى، مثل الفنانين البصريين أو المعلمين عبر منصة يوتيوب أو المدونين، قد يشعرون أن لديهم خيارين فقط: إما حجب محتواهم وإتاحته فقط عبر عمليات تسجيل الدخول والاشتراكات المدفوعة، وإما عدم نشره عبر الإنترنت على الإطلاق. بالنسبة إلى المستخدمين الحقيقيين، فإن هذا يصعّب عليهم الوصول إلى المقالات الإخبارية ومشاهدة المحتوى من صناع المحتوى المفضلين لديهم والتنقل عبر الويب دون الاصطدام بعمليات تسجيل الدخول وطلبات الاشتراك واختبارات التحقق من الهوية البشرية (كابتشا) في كل خطوة من خطوات التنقل.

ولعل الأمر الأكثر إثارة للقلق هو الطريقة التي تفضي من خلالها العقود الضخمة والحصرية المبرمة مع شركات الذكاء الاصطناعي إلى تقسيم الويب. فكل صفقة تعزز الحافز لدى أي موقع إلكتروني أن يظل حصرياً ويمنع أي شخص آخر من الوصول إلى البيانات، سواء كان منافساً أم لا. ومن المرجح أن يؤدي ذلك إلى زيادة تركيز النفوذ في أيدي عدد أقل من الجهات المطورة للذكاء الاصطناعي والناشرة للبيانات. إن المستقبل الذي يمكن فيه للشركات الضخمة فقط ترخيص بيانات الويب البالغة الأهمية أو الوصول إليها باستخدام عناكب الويب، سيؤدي إلى قمع المنافسة والإخفاق في خدمة المستخدمين الحقيقيين أو العديد من أصحاب حقوق التأليف والنشر.

وبعبارة أخرى، سيؤدي اتباع هذا المسار إلى تقليص "التنوع البيولوجي" للويب. قد تتعرض عناكب الويب التي يطلقها الباحثون الأكاديميون والصحفيون والتطبيقات غير العاملة بالذكاء الاصطناعي للحرمان بصورة متزايدة من الوصول المفتوح. وما لم نتمكن من رعاية بيئة عمل تطبق قواعد مختلفة للاستخدامات المختلفة للبيانات، قد ينتهي بنا الأمر إلى انتشار حدود صارمة عبر الإنترنت، ما يؤثر سلباً في الانفتاح والشفافية.

على الرغم من أنه ليس من السهل تجنب هذا المسار، يمكن للمدافعين عن مبدأ الإنترنت المفتوحة الإصرار على القوانين والسياسات والبنية التحتية التقنية التي تحمي صراحةً الاستخدامات غير التنافسية لبيانات الويب من العقود الحصرية، مع حماية منشئي البيانات وناشريها في الوقت نفسه. هذه الحقوق ليست متعارضة، والنضال دفاعاً عن حق الوصول إلى البيانات عبر الإنترنت يضعنا أمام مفترق طرق، بين أن نتكبد خسارة هائلة أو نحقق مكاسب هائلة. وبينما تبحث المواقع الإلكترونية عن طرق للتكيف، يجب ألا نضحي بمبدأ الإنترنت المفتوحة على مذبح الذكاء الاصطناعي التجاري.