منذ بداية عام 2024، شهدت مؤسسة ويكيميديا (Wikimedia Foundation) غير الربحية زيادة غير طبيعية في حركة المرور على خوادمها، وصلت الزيادة إلى نسبة 50% على منصة ويكيميديا كومنز التي تضم ملايين الصور والفيديوهات. السبب الرئيسي هو زحف البوتات الآلية المستخدمة في جمع البيانات من قِبل الشركات التي تطوّر نماذج الذكاء الاصطناعي.
بحسب المؤسسة، تشكّل بوتات جمع البيانات الآن 35% من إجمالي الزيارات، لكنها مسؤولة عن 65% استهلاك موارد الخوادم، وهذا يؤدي إلى عبء كبير على البنية التحتية ويزيد تكاليف التشغيل بشكلٍ كبير.
اقرأ أيضاً: هل يشكّل تشات جي بي تي خطراً وجودياً على موسوعة ويكيبيديا؟
ما الذي قالته المؤسسة؟
في بيان نُشِر على موقعها الإلكتروني، قالت المؤسسة: "منذ يناير 2024، شهدنا زيادة في عرض النطاق الترددي المستخدم لتنزيل محتوى الوسائط المتعددة بنسبة 50%. لا يأتي هذا الارتفاع من القرّاء البشر، بل يعود في معظمه إلى برامج آلية تستخرج الصور ذات الترخيص المفتوح من ويكيميديا كومنز لتدريب نماذج الذكاء الاصطناعي. بنيتنا التحتية مصممة لاستيعاب الارتفاع المفاجئ في حركة البيانات البشرية خلال الفعاليات ذات الاهتمام الكبير، إلّا أن حجم حركة البيانات التي تولّدها برامج استخراج البيانات غير مسبوق، ويمثّل مخاطر وتكاليف متزايدة".
وأضافت المؤسسة: "عند التدقيق، وجدنا أن ما لا يقل عن 65% من حركة المرور المستهلكة للموارد التي نتلقاها على مواقعنا تأتي من بوتات الزحف، وهي نسبة غير متناسبة نظراً لأن إجمالي عدد مشاهدات الصفحات من قِبل تلك البوتات يبلغ نحو 35%. يسبب هذا الاستخدام المفرط ضغطاً مستمراً على فريق موثوقية الموقع، الذي يضطر إلى حظر حركة المرور الهائلة من هذه البوتات قبل أن تسبب مشكلات للقرّاء البشر".
اقرأ أيضاً: هل يمكن استخدام تشات جي بي تي لكتابة مقالات ويكيبيديا؟
لماذا تزور البوتات مواقع ويكيميديا؟
تزور بوتات جمع البيانات المواقع التابعة لمؤسسة ويكيميديا لأنها تُعدُّ من أغنى مصادر المعرفة المفتوحة والمجانية على الإنترنت، فهي توفّر محتوى شاملاً يمكن استخدامه في تدريب نماذج اللغة الكبيرة على فهم اللغة وتوليدها. يحتوي موقع ويكيبيديا على أكثر من 6.9 ملايين مقالة باللغة الإنجليزية و1.2 مليون مقالة باللغة العربية في لحظة كتابة هذا المقال، بالإضافة إلى ملايين المقالات بأكثر من 300 لغة. هذا العدد الهائل من المقالات يجعل الموقع قاعدة بيانات ضخمة ومتنوعة تغطي مختلف المواضيع الإنسانية والعلمية والثقافية.
إلى جانب المقالات، يوفّر موقع ويكيميديا كومنز مصدراً مهماً لهذه البوتات بمستودع ضخم للصور والفيديوهات المجانية، ويضم حالياً أكثر من 100 مليون صورة وفيديو تُستخدم لدعم المحتوى في المقالات، وتجمعها بوتات الذكاء الاصطناعي بغرض تدريب نماذج الذكاء الاصطناعي على تحليل الصور وتوليدها.
كل هذا يجعل من مواقع ويكيميديا بمحتواها النصي والبصري وجهة رئيسية لجمع البيانات، الأمر الذي أدّى لضغط كبير على خوادمها نتيجة الكميات الهائلة من الطلبات التي ترسلها هذه البوتات بشكلٍ مستمر.
محتوى مجاني لكن البنية التحتية ليست كذلك
على الرغم من أن مشاريع مؤسسة ويكيميديا توفّر محتوى مجانياً للجميع، فإن هذه المشاريع تتطلب بنية تحتية مكلفة. تعتمد مؤسسة ويكيميديا بالكامل تقريباً على تبرعات المستخدمين لتمويل خوادمها وتوفير أجور الموظفين وتكاليف الصيانة والتطوير. ففي السنة المالية 2023-2024، جمعت 170.5 مليون دولار أميركي من أكثر من 17.4 مليون متبرع.
لكن مع ازدياد نشاط بوتات الذكاء الاصطناعي، تواجه البنية التحتية ضغطاً غير مسبوق. هذه البوتات ترسل ملايين الطلبات يومياً لجمع البيانات، ما يزيد استهلاك موارد الخوادم، خصوصاً عندما تزحف إلى الصفحات الأقل زيارة. فالخوادم تعتمد على التخزين المؤقت لتسريع الوصول إلى الصفحات المعروفة، لكن الصفحات الأقل زيارة التي يُطلب الوصول إليها بشكلٍ مفاجئ من قِبل البوتات لا تكون على الذاكرة المؤقتة، ما يضطر الخادم لإنشائها من الصفر في كل مرة. هذا يتطلّب موارد حوسبة أكبر ويزيد استهلاك الذاكرة وبالتالي من الكلفة التشغيلية.
الضغط المتزايد على الخوادم لا يؤثّر فقط في أداء الموقع للمستخدمين العاديين، بل يطرح أيضاً تحديات أمام قدرة المؤسسة على الاستمرار بتقديم المعرفة مجاناً دون قيود أو اشتراكات أو إعلانات.
اقرأ أيضاً: هل ستقضي بوتات الدردشة على محركات البحث التقليدية؟
التدابير التي تستطيع المؤسسة اتخاذها
أمام الضغوط المتزايدة على البنية التحتية، تملك مؤسسة ويكيميديا مجموعة من التدابير التي يمكن أن تتخذها للتعامل مع زحف بوتات الذكاء الاصطناعي. أحد أبرز الخيارات هو فرض قيود على عدد الطلبات القادمة من عناوين الآي بي (IP) التابعة للبوتات، مثل تحديد عدد الطلبات المسموح بها في الدقيقة أو في اليوم، ما يخفف الضغط على الخوادم.
إجراء آخر ممكن هو إلزام شركات الذكاء الاصطناعي التي تجمع كميات ضخمة من البيانات على بدفع اشتراكات حسب حجم البيانات التي تجمعها. بهذه الطريقة، تستطيع ويكيميديا تأمين مصدر دخل يساعد على تمويل التكاليف الناتجة عن الاستخدام المكثّف لخوادمها.
السياق العالمي للمشكلة
مشكلة ويكيميديا ليست سوى جزء من ملامح مشهد أوسع يعكس تحديات تعانيها مواقع الويب المجانية في عصر الذكاء الاصطناعي. العديد من المواقع وقواعد البيانات العامة والمشاريع التطوعية على الإنترنت باتت تواجه ضغوطاً مشابهة بل وأحياناً أشد. في بعض هذه المواقع، أصبحت حركة المرور القادمة من بوتات الذكاء الاصطناعي تفوق إجمالي عدد الزيارات من البشر، ما يسبّب ضغطاً هائلاً على البنية التحتية ويهدد استمراريتها.
هذه المشكلة تفتح الباب أمام أسئلة جوهرية حول العلاقة بين الذكاء الاصطناعي والمحتوى المجاني: هل يحق لشركات الذكاء الاصطناعي الربحية جمع هذا المحتوى وتوظيفه بحرية دون اتفاقيات واضحة أو آليات لتعويض المصادر؟ ومتى يتحول الاستخدام العادل إلى استنزاف غير أخلاقي؟
في ظل غياب إطار تنظيمي عالمي يضبط هذه العلاقة، تبرز الحاجة إلى إعادة تقييم التوازن بين حق الوصول المفتوح للمعلومة، وضرورة الحفاظ على استدامة المنصات التي تنتجها. مشكلة ويكيبيديا أصبحت مرآة لانقسام واسع بين مَن يُنشئ المحتوى بشكلٍ تطوعي ومجاني، ومَن يستثمره تجارياً بأدوات قوية وبلا قيود واضحة.