كيف يؤدي الذكاء الاصطناعي وويكيبيديا إلى تسريع اندثار بعض اللغات؟

15 دقيقة
كيف يؤدي الذكاء الاصطناعي وويكيبيديا إلى تسريع اندثار بعض اللغات؟
مصدر الصورة: رافين جيانغ

يهدد التقدم في الذكاء الاصطناعي وجود اللغات الضعيفة الانتشار، إذ تتحول التقنيات التي وجدت لتسهيل المعرفة إلى أدوات تسرع اندثارها رقمياً. تتجلى الأزمة في ممارسات رقمية غير منضبطة تشهدها منصة ويكيبيديا الشهيرة تفقد هذه اللغات صدقيتها وهويتها الثقافية:

  • امتلأت نسخ ويكيبيدي…

عندما تولى كينيث وير إدارة نسخة ويكيبيديا باللغة الغرينلاندية قبل أربع سنوات، كان أول ما فعله هو حذف معظم المحتوى. فقد اعتقد أن هذا هو الحل الوحيد لإنقاذ النسخة من الاندثار.

وير، البالغ من العمر 26 عاماً، ليس من غرينلاند -فقد نشأ في ألمانيا- لكنه أصبح مهووساً بالجزيرة، وهي إقليم دانماركي يتمتع بالحكم الذاتي، بعد أن زارها في سن المراهقة. وقد أمضى سنوات في كتابة مقالات غامضة على ويكيبيديا بلغته الأم عن كل ما يتعلق بها تقريباً. حتى انتهى به الأمر بالانتقال إلى العاصمة الدانماركية كوبنهاغن لدراسة اللغة الغرينلاندية، وهي لغة يتحدث بها نحو 57,000 شخص معظمهم من السكان الأصليين من الإنويت المنتشرين في عشرات القرى النائية في القطب الشمالي. 

أضيفت النسخة الغرينلاندية إلى ويكيبيديا في عام 2003 تقريباً، بعد سنوات قليلة من إطلاق الموقع باللغة الإنجليزية. وبحلول الوقت الذي تولى فيه وير قيادة الموقع باللغة الغرينلاندية بعد نحو 20 عاماً، كان المئات من أعضاء ويكيبيديا قد أسهموا فيه وكتبوا مجتمعين نحو 1500 مقال تجاوز المجموع الإجمالي لكلماتها عشرات الآلاف من الكلمات. بدا الأمر كأنه تبرير مثير للإعجاب لنهج التعهيد الجماعي الذي جعل من ويكيبيديا المصدر المفضل للمعلومات على الإنترنت، مثبتاً قدرته على النجاح حتى في أكثر الأماكن غرابة.

لم تكن هناك سوى مشكلة واحدة: كانت ويكيبيديا غرينلاند سراباً.

مشكلة ويكيبيديا: التعهيد الجماعي سلاح ذو حدين 

نشرت المقالات جميعها تقريباً على يد أشخاص لا يجيدون اللغة فعلياً. ويتكهن وير الذي يدرس الآن اللغة الغرينلاندية في الدانمارك، بأنه ربما أسهم في الكتابة شخص أو اثنان فقط من سكان غرينلاند. لكن أكثر ما كان يقلقه هو أمر آخر: فقد لاحظ بمرور الوقت تزايد عدد المقالات التي يبدو أنها نسخت ولصقت في ويكيبيديا بواسطة أشخاص يستخدمون مترجمات آلية. كانت هذه المقالات مليئة بالأخطاء البدائية، من الأخطاء النحوية إلى الكلمات التي لا معنى لها وصولاً إلى الأخطاء الأكثر فداحة، مثل مقال زعم أن عدد سكان كندا لا يتجاوز 41 نسمة. وكانت صفحات أخرى تحتوي في بعض الأحيان على سلاسل عشوائية من الحروف الصادرة عن المترجمات الآلية التي لم تتمكن من العثور على كلمات غرينلاندية مناسبة للتعبير عن نفسها.

ويشكو وير قائلاً: "ربما بدا المحتوى غرينلاندياً بالنسبة إلى المؤلفين، لكن لم يكن لديهم أي طريقة لمعرفة ذلك".

ويضيف: "لم يكن للجمل أي معنى على الإطلاق، أو كانت تحتوي على أخطاء واضحة. فمترجمات الذكاء الاصطناعي سيئة حقاً في اللغة الغرينلاندية".

ما يصفه وير ليس فريداً من نوعه بالنسبة للنسخة الغرينلاندية.

ويكيبيديا هي المشروع المتعدد اللغات الأكثر طموحاً بعد كتاب الإنجيل: ثمة إصدارات بأكثر من 340 لغة، ويجري تطوير 400 إصدار آخر بلغات أقل شيوعاً واختبارها. وقد امتلأ العديد من هذه النسخ الأصغر حجماً بالمحتوى المترجم آلياً مع تزايد سهولة الوصول إلى الذكاء الاصطناعي. على سبيل المثال، قدر المتطوعون الذين يعملون على أربع لغات إفريقية لمجلة إم آي تي تكنولوجي ريفيو أن ما بين 40% و60% من المقالات في إصدارات ويكيبيديا الخاصة بهم كانت ترجمات آلية غير مصححة. وبعد تدقيق نسخة ويكيبيديا بلغة الإينوكتيتوت، وهي لغة أصلية قريبة من لغة غرينلاند تستخدم في كندا، قدرت إم آي تي تكنولوجي ريفيو أن أكثر من ثلثي الصفحات التي تحتوي على أكثر من عدة جمل تحتوي على أجزاء منشأة بهذه الطريقة.

 اقرأ أيضاً: هل الذكاء الاصطناعي سيجعل تعلُّم اللغات عديم الفائدة؟

لغات جديدة من النماذج اللغوية 

بدأ هذا الأمر يسبب مشكلة معقدة. تتعلم أنظمة الذكاء الاصطناعي، من جوجل ترانسليت إلى تشات جي بي تي، "التحدث" بلغات جديدة من خلال استخراج كميات هائلة من النصوص من الإنترنت. تعد ويكيبيديا أحياناً أكبر مصدر للبيانات اللغوية على الإنترنت للغات ذات العدد القليل من المتحدثين، لذا فإن أي أخطاء واردة في تلك الصفحات، سواء كانت نحوية أو غير ذلك، يمكن أن تضر بالمصادر التي يتوقع أن ينهل منها الذكاء الاصطناعي. هذا قد يجعل ترجمة النماذج لهذه اللغات عرضة للأخطاء على وجه الخصوص، ما يؤدي إلى حلقة لغوية مدمرة حيث يستمر الناس في إضافة المزيد والمزيد من صفحات ويكيبيديا المترجمة بصورة سيئة باستخدام تلك الأدوات، وتستمر نماذج الذكاء الاصطناعي في التدرب من الصفحات المترجمة بصورة سيئة. إنها مشكلة معقدة، لكنها تتلخص في مفهوم بسيط: إدخال البيانات الخاطئة، يعني إخراج بيانات خاطئة.

مدخلات خاطئة تعني مخرجات خاطئة 

يقول الأستاذ السابق لعلوم الكمبيوتر في جامعة سانت لويس الذي يعمل الآن على بناء برامج حاسوبية مصممة خصيصاً للغات المهددة بالانقراض، كيفن سكانيل: "هذه النماذج مبنية على بيانات أولية، وستحاول تعلم كل شيء عن اللغة من الصفر. لا توجد مدخلات أخرى، ولا كتب عن النحو، ولا قواميس، ولا يوجد شيء آخر غير النص الذي يجري إدخاله".

لا توجد بيانات دقيقة حول حجم هذه المشكلة، خاصة لأن الكثير من بيانات تدريب الذكاء الاصطناعي تبقى سرية ويشهد هذا المجال تطوراً سريعاً. ولكن في عام 2020، أشارت التقديرات إلى أن ويكيبيديا كانت تشكل أكثر من نصف بيانات التدريب التي أدخلت في نماذج الذكاء الاصطناعي التي تترجم بعض اللغات التي يتحدث بها الملايين في أنحاء إفريقيا كافة، بما في ذلك الملغاشية واليوروبا والشونا. في عام 2022، بحث فريق بحثي ألماني في البيانات التي يمكن الحصول عليها عن طريق استخلاصها عبر الإنترنت، ووجد أن ويكيبيديا هي المصدر الوحيد الذي يمكن الوصول إليه بسهولة للبيانات اللغوية عبر الإنترنت لـ 27 لغة من اللغات التي تعاني نقص الموارد.

قد يكون لهذا الأمر عواقب وخيمة في الحالات التي تكون فيها ويكيبيديا مكتوبة بصورة سيئة، ما قد يدفع اللغات الأضعف على الأرض نحو الهاوية، حيث تبدأ الأجيال القادمة بالابتعاد عنها.

يقول عالم اللغويات الحاسوبية في جامعة ترومسو في النرويج، الذي دأب على التحذير بشأن العواقب الوخيمة المحتملة لإصدارات ويكيبيديا التي تدار بأسلوب سيئ منذ سنوات، تروند تروسترود: "ستنعكس ويكيبيديا على نماذج الذكاء الاصطناعي لهذه اللغات. وأجد صعوبة في تخيل عدم وجود عواقب. وبالطبع، كلما زادت هيمنة ويكيبيديا، ازداد الوضع سوءاً".

اقرأ أيضاً: لماذا تشتكي ويكيبيديا من بوتات الذكاء الاصطناعي؟

الاستخدام بمسؤولية

لقد أدمجت الأتمتة في ويكيبيديا منذ بداياتها. وتحافظ البوتات على إبقاء المنصة قيد التشغيل: فهي تتولى تصحيح الروابط المعطلة، وتصحيح التنسيق السيئ، وحتى تصحيح الأخطاء الإملائية. يمكن أتمتة هذه المهام المتكررة والمملة بسهولة. حتى إن ثمة جيش من البوتات التي تعجل في إنتاج مقالات قصيرة عن الأنهار أو المدن أو الحيوانات من خلال إدراج أسمائها في عبارات نمطية. وقد أسهمت هذه البوتات عموماً في تحسين المنصة.

لكن الذكاء الاصطناعي مختلف. إذ يمكن لأي شخص استخدامه لإحداث أضرار جسيمة ببضع نقرات.

لقد نجحت ويكيبيديا في التعامل مع بداية عصر الذكاء الاصطناعي بصورة أفضل من العديد من المواقع الأخرى. لم تغرق ببوتات الذكاء الاصطناعي أو المعلومات المضللة، كما حدث مع وسائل التواصل الاجتماعي. وما زالت تحتفظ إلى حد كبير بالبراءة التي ميزت عصر الإنترنت السابق. ويكيبيديا مفتوحة ومجانية لأي شخص، لاستخدامها وتحريرها والانتفاع منها، ويديرها المجتمع نفسه الذي تخدمه. إنها شفافة وسهلة الاستخدام. لكن المنصات التي تديرها المجتمعات تزدهر وتموت وفقاً لحجم مجتمعاتها. لقد انتصرت اللغة الإنجليزية، بينما غرقت اللغة الغرينلاندية.

يقول العضو في لجنة اللغات المتطوعة التي تشرف على طلبات فتح إصدارات ويكيبيديا أو إغلاقها، أمير أهاروني: "نحن في حاجة إلى أعضاء ويكيبيديا أكفاء. هذه الناحية يعتبرها الناس أمراً مفروغاً منه، فهي تتطلب حلاً عملياً لا ضرباً من الخيال. إذا استخدمت الترجمة الآلية بطريقة مسؤولة، فقد تكون فعالة ومفيدة. لكن لسوء الحظ، لا يمكنك الوثوق بالناس جميعاً لاستخدامها بمسؤولية".

درس تروسترود سلوك مستخدمي إصدارات ويكيبيديا الصغيرة، ويقول إن الذكاء الاصطناعي مكن مجموعة فرعية يسميها "مختطفي ويكيبيديا". يمتد هؤلاء المستخدمين على نطاق واسع، من المراهقين الساذجين الذين ينشؤون صفحات عن مدنهم الأصلية أو عن مستخدمي يوتيوب المفضلين لديهم، إلى أعضاء ويكيبيديا من أصحاب النوايا الحسنة الذين يعتقدون أنهم من خلال إنشاء مقالات بلغات الأقليات "يساعدون" تلك المجتمعات بطريقة ما.

يقول تروسترود: "المشكلة التي يواجهونها في الوقت الحاضر هي أنهم مسلحون بخدمة ترجمة جوجل"، مضيفًا أن هذا يسمح لهم بإنتاج محتوى أكبر بكثير وأكثر منطقية مما كانوا قادرين عليه في أي وقت مضى: "في السابق كانوا مسلحين بالقواميس فقط".

وقد أدى ذلك فعلياً إلى إضفاء طابع صناعي على أعمال التدمير، التي تؤثر في اللغات الضعيفة أكثر من غيرها، لأن ترجمات الذكاء الاصطناعي عادة ما تكون أقل موثوقية بكثير بالنسبة لها. قد يكون ثمة الكثير من الأسباب المختلفة لذلك، لكن الكم القليل نسبياً من النصوص المصدرية المتوفرة على الإنترنت يشكل جزءاً مهماً من المشكلة. وأحياناً تكافح النماذج للتعرف على لغة ما لأنها متشابهة مع لغات أخرى، أو لأن بعضها، بما في ذلك لغة غرينلاند ومعظم لغات السكان الأصليين في أميركا الشمالية، لديها تراكيب تجعلها غير ملائمة للطريقة التي يعمل بها معظم أنظمة الترجمة الآلية. (يشير وير إلى أن غالبية الكلمات في لغة غرينلاند مركبة، أي إنها مبنية من خلال ربط البادئات واللواحق بالجذوع. ونتيجة لذلك، فإن كلمات عديدة تكون مرتبطة بالسياق إلى حد كبير ويمكنها التعبير عن أفكار قد تتطلب جملة كاملة في لغات أخرى).

 كونتنت ترانسليت

وقد وجدت الأبحاث التي أجرتها شركة جوجل قبل التوسع الكبير في خدمة جوجل ترانسليت قبل ثلاث سنوات أن أنظمة الترجمة للغات ذات الموارد المنخفضة كانت عموماً أقل جودة من تلك المخصصة للغات ذات الموارد الأفضل. فقد وجد الباحثون، على سبيل المثال، أن نموذجهم غالباً ما يخطئ في ترجمة الأسماء الأساسية بين اللغات، بما في ذلك أسماء الحيوانات والألوان. (في تصريح قدمته جوجل لإم آي تي تكنولوجي ريفيو، كتبت أنها "ملتزمة بالوفاء بمعايير عالية الجودة للغات الـ 249 كلها" التي تدعمها "من خلال اختبار أنظمتها وتحسينها بدقة، خاصة للغات التي قد يكون لديها موارد نصية عامة محدودة على الإنترنت").

تقدم ويكيبيديا نفسها أداة تحرير مدمجة تسمى "كونتنت ترانسليت" (Content Translate)، تسمح للمستخدمين بترجمة المقالات تلقائياً من لغة إلى أخرى، والفكرة مفادها هو أن هذا سيوفر الوقت من خلال الحفاظ على المراجع والتنسيق المعقد للنسخ الأصلية. لكنها تعتمد على أنظمة الترجمة الآلية الخارجية، لذا فهي تعاني إلى حد كبير نقاط الضعف نفسها التي تعانيها برامج الترجمة الآلية الأخرى، وهي مشكلة تقول مؤسسة ويكيميديا إنها صعبة الحل. الأمر متروك لمجتمع كل إصدار ليقرر إن كانت هذه الأداة مسموحاً بها أم لا، وقد قرر البعض عدم السماح بها. (والجدير بالذكر أن ويكيبيديا باللغة الإنجليزية حظرت استخدامها إلى حد كبير، مدعية أن نحو 95% من المقالات التي أنشئت باستخدام كونتنت ترانسليت فشلت في تلبية معيار مقبول دون عمل إضافي كبير). ولكن من السهل على الأقل معرفة أن الاداة قد استخدمت؛ حيث تضيف "كونتنت ترانسليت" علامة على الواجهة الخلفية لويكيبيديا.

قد يكون من الصعب مراقبة برامج الذكاء الاصطناعي الأخرى. ومع ذلك، قال العديد من محرري ويكيبيديا الذين تحدثت إليهم إنه بمجرد إضافة لغاتهم إلى أدوات الترجمة الرئيسية على الإنترنت، لاحظوا ارتفاعاً مماثلاً في وتيرة إنشاء صفحات رديئة من المحتمل أنها مترجمة آلياً.

يعترف بعض أعضاء ويكيبيديا الذين يستخدمون الذكاء الاصطناعي لترجمة المحتوى في بعض الأحيان بأنهم لا يتقنون اللغات المستهدفة. قد يرون أنفسهم على أنهم يزودون المجتمعات الأصغر بمقالات أولية يمكن للمتحدثين بها تعديلها لاحقاً، متبعين بذلك النموذج نفسه الذي نجح مع إصدارات ويكيبيديا الأكثر نشاطاً.

تشير جوجل ترانسليت، على سبيل المثال، إلى أن كلمة "يناير" بالفولفولدية تعني "يونيو"، بينما يشير تشات جي بي تي إلى أنها تعني "أغسطس" أو "سبتمبر". كما تشير البرامج أيضاً إلى أن كلمة "الحصاد" بالفولفولدية تعني "الحمى" أو "الرفاهة"، من بين احتمالات أخرى.

ولكن بمجرد إنتاج صفحات مليئة بالأخطاء باللغات الصغيرة، لا يوجد عادة جيش من الخبراء الناطقين بهذه اللغات على أهبة الاستعداد لتحسينها. ثمة عدد قليل من القراء لهذه الإصدارات، وأحياناً لا يوجد محرر واحد منتظم.

يقول يويت مان لي، وهو مدرس كندي في العشرينيات من عمره، إنه اعتمد على كل من جوجل ترانسليت وتشات جي بي تي معاً لترجمة بعض المقالات التي كتبها لويكيبيديا الإنجليزية إلى لغة الإينوكتيتوت، معتقداً أنه سيكون من الجيد الإسهام في مساعدة مجتمع ويكيبيديا الأصغر. ويقول إنه أضاف ملاحظة إلى إحداها تفيد بأنها مجرد ترجمة تقريبية. ويوضح: "لم أتوقع أن أحداً سيلاحظ" المقال. ويضيف: "إذا نشرت مقالاً ما على صفحات ويكيبيديا الأقل انتشاراً، فغالباً لا يلاحظه أحد".

ولكن في الوقت نفسه، يقول إنه لا يزال يعتقد أن "شخصاً ما قد يراه ويصححه"، مضيفاً أنه كان يتساءل عما إذا كانت ترجمة الإينوكتيتوت التي أنتجتها أنظمة الذكاء الاصطناعي صحيحة نحوياً. لم يجر أحد أي تعديل على المقال منذ أن أنشأه.

 غطرسة ويكيبيديا الأكبر

يقول لي، الذي يعمل في تدريس العلوم الاجتماعية في فانكوفر وبدأ للمرة الأولى في تحرير المقالات في ويكيبيديا الإنجليزية قبل عقد من الزمان، إن المستخدمين الملمين بإصدارات ويكيبيديا الأكثر نشاطاً يمكن أن يقعوا ضحية لهذه العقلية، التي يسميها "غطرسة ويكيبيديا الأكبر": عندما يحاولون الإسهام في إصدارات ويكيبيديا الأصغر، فإنهم يفترضون أن الآخرين سيساعدون على تصحيح أخطائهم. وقد ينجح ذلك في بعض الأحيان. يقول لي إنه أسهم سابقاً بعدة مقالات في ويكيبيديا باللغة التترية، وهي لغة يتحدث بها الملايين من الأشخاص الذين معظمهم في روسيا، وقد جرى تصحيح واحدة منها على الأقل في نهاية المطاف. لكن ويكيبيديا الإينوكتيتوتية تعد "أرضاً قاحلة" مقارنة بغيرها من الإصدارات.

ويؤكد أن نواياه كانت حسنة: فقد أراد إضافة المزيد من المقالات إلى ويكيبيديا الموجهة للمتحدثين بالكندية الأصلية. يقول لي: "يتراءى لي الآن أنها ربما كانت فكرة سيئة. لم أكن أتصور أنني قد أسهم في تكوين حلقة مفرغة. كان الأمر يتعلق بمحاولة نشر المحتوى، بدافع الفضول والمتعة، دون التفكير ملياً في العواقب".

اقرأ أيضاً: هل يشكّل تشات جي بي تي خطراً وجودياً على موسوعة ويكيبيديا؟

"لا مستقبل على الإطلاق"

ويكيبيديا مشروع مدفوع بتفاؤل واسع. قد يكون التحرير مهمة شاقة، تنطوي على أسابيع من المشاحنات مع أشخاص مجهولي الهوية وأسماء مستعارة، لكن المخلصين يبذلون ساعات من العمل غير مدفوعة الأجر بسبب التزامهم بقضية أسمى. هذا الالتزام هو ما يدفع العديد من محرري اللغات المحدودة الانتشار الذين تحدثت إليهم. جميعهم يخشون ما سيحدث إذا استمر ظهور المحتوى غير المرغوب فيه على صفحاتهم.

قال عبد القادر عبد القادر، وهو متخصص في التخطيط الزراعي يبلغ من العمر 26 عاماً تحدث إلي عبر مكالمة هاتفية متقطعة من جانب طريق مزدحم في شمال نيجيريا، إنه يقضي ثلاث ساعات يومياً في تعديل المقالات بلغته الفولفولدية الأم، وهي لغة يستخدمها الرعاة والمزارعون بصورة رئيسية في أنحاء منطقة الساحل كلها. وقال: "لكن العمل يفوق طاقتي".

يرى عبد القادر أن ثمة حاجة ملحة لتفعيل ويكيبيديا الفولفولدية بطريقة صحيحة. وهو يقترحها بصفتها أحد الموارد القليلة المتاحة عبر الإنترنت للمزارعين في القرى النائية، حيث يمكن أن تقدم معلومات عن البذور أو المحاصيل الأنسب لحقولهم بلغة يمكنهم فهمها. أخبرني عبد القادر أنك إذا قدمت لهم مقالاً مترجماً آلياً، فقد "يضرهم ذلك بسهولة"، لأن المعلومات قد لا تترجم بطريقة صحيحة إلى الفولفولدية.

على سبيل المثال، تشير جوجل ترانسليت على سبيل المثال إلى أن كلمة "يناير" بالفولفولدية تعني "يونيو"، بينما يشير تشات جي بي تي إلى أنها "أغسطس" أو "سبتمبر". كما تشير البرامج أيضاً إلى أن كلمة "حصاد" بالفولفولدية تعني "الحمى" أو "الرفاهة"، من بين احتمالات أخرى.

وقال عبد القادر إنه اضطر مؤخراً إلى تصحيح مقال عن نبات اللوبياء، وهو أحد المحاصيل التجارية الرابحة الأساسية في معظم أنحاء إفريقيا، بعد أن اكتشف أنه غير مقروء إلى حد كبير.

وقال عبد القادر إنه إذا أراد شخص ما إنشاء صفحات على ويكيبيديا الفولفولدية، فيجب ترجمتها يدوياً. وإلا فإن "كل من سيقرأ مقالاتك لن يتمكن من الحصول حتى على المعرفة الأساسية"، كما يقول لأعضاء ويكيبيديا هؤلاء. ومع ذلك، فهو يقدر أن نحو 60% من المقالات لا تزال ترجمات آلية غير مصححة. أخبرني عبد القادر أنه ما لم يحدث تغيير مهم في كيفية تعلم أنظمة الذكاء الاصطناعي ونشرها، فإن مستقبل النسخة الفولفولدية يبدو قاتماً. قال عبد القادر: "سيكون الأمر مروعاً بصراحة. فرصها المستقبلية معدومة تماماً".

على الجانب الآخر من البلاد حيث يعيش عبد القادر، تسهم لوسي إيووالا في ويكيبيديا بلغة الإيغبو، وهي لغة يتحدث بها ملايين الأشخاص في جنوب شرق نيجيريا. قالت لي وهي تفتح أحدث مقالين أنشئا مؤخراً: "لقد وقع الضرر بالفعل". فكلاهما ترجم تلقائياً باستخدام كونتنت ترانسليت في ويكيبيديا واحتوى على الكثير من الأخطاء لدرجة أنها قالت إن مواصلة قراءتهما كانت ستسبب لها صداعاً. وأشارت إلى أنه: "ثمة بعض المصطلحات التي لم تترجم حتى. فهي لا تزال باللغة الإنجليزية". وتعرفت على اسم المستخدم الذي أنشأ هذه الصفحات على أنه مجرم متسلسل. وقالت: "حتى إن هذه الصفحة تتضمن حروفاً غير مستخدمة في لغة الإيغبو".

بدأت إيووالا في الإسهام بانتظام في ويكيبيديا منذ ثلاث سنوات، خوفاً من أن تحل اللغة الإنجليزية محل لغة الإيغبو. وهو قلق شائع لدى الكثيرين ممن ينشطون في إصدارات ويكيبيديا الأقل انتشاراً. قالت لي: "هذه هي ثقافتي. هذه هويتي. هذا هو جوهر الأمر برمته: ضمان ألا تتعرض هويتك للزوال".

قالت إيووالا، التي تعمل الآن مترجمة محترفة بين اللغتين الإنجليزية والإيغبو، إن المستخدمين الذين يلحقون الضرر الأكبر هم من عديمي الخبرة ويرون في ترجمات الذكاء الاصطناعي وسيلة لزيادة شهرة ويكيبيديا الإيغبو بسرعة. وكثيراً ما تجد نفسها مضطرة إلى أن تشرح في اجتماعات التحرير التي تنظمها عبر الإنترنت، أو عبر البريد الإلكتروني لمختلف المحررين المعرضين للأخطاء، أن النتائج قد تكون عكس ذلك تماماً، ما يبعد المستخدمين: "ستصابون بالإحباط ولن ترغبوا في زيارة هذا الموقع بعد الآن. سوف تهجرونه وتعودون إلى ويكيبيديا الإنجليزية".

هذه المخاوف يرددها نوح هاليليو سولومون، الأستاذ المساعد للغة الهاوائية في جامعة هاواي. ويذكر أن نحو 35% من الكلمات في بعض الصفحات في ويكيبيديا الهاوائية غير مفهومة. ويقول: "إذا كانت هذه هي لغة هاواي التي ستظهر على الإنترنت، فسيكون ضررها أكبر من أي شيء آخر".

اللغة الهاوائية، التي كانت وشك الانقراض قبل عدة عقود، تشهد جهوداً للتعافي يقودها نشطاء وأكاديميون من السكان الأصليين. إن رؤية هذا المستوى من اللغة الهاوائية الضعيفة على منصة مستخدمة على نطاق واسع مثل ويكيبيديا أمر مزعج لهاليليو سولومون.

يقول سولومون: "إنه لأمر مؤلم، لأنه يذكرنا بالأوقات كلها التي تعرضت فيها ثقافتنا ولغتنا للاستيلاء. لقد ناضلنا بكل ما أوتينا من قوة في رحلة شاقة من أجل إحياء لغتنا. ليس الأمر سهلاً، وهذا قد يضيف عوائق إضافية. سيظن الناس أن هذا تمثيل دقيق للغة هاواي".

يمكن أن تتضح عواقب هذه الأخطاء كلها في ويكيبيديا بسرعة. إن مترجمات الذكاء الاصطناعي التي اكتسبت بلا شك محتوى هذه الصفحات ضمن بيانات التدريب الخاصة بها تسهم الآن في إنتاج كتب مولدة بالذكاء الاصطناعي مليئة بالأخطاء -على سبيل المثال- تستهدف متعلمي لغات متنوعة مثل الإينوكتيتوت والكري، وهما من اللغات الأصلية المحكية في كندا، والمانكس، وهي لغة سلتية محدودة الانتشار محكية في جزيرة مان. وقد ظهر العديد من هذه الكتب للبيع على منصة أمازون. يقول العالم اللغوي في جامعة كيبيك في مقاطعة مونتريال، ريتشارد كومبتون، عن كتاب راجعه يزعم ناشره بأنه كتاب تعريفي بالعبارات الشائعة المحكية باللغة الإينوكتيتوتية: "كان محض هراء".

فبدلاً من تسهيل انتشار لغات الأقليات، ينشئ الذكاء الاصطناعي الآن حقل ألغام متزايد الاتساع أمام الطلاب والمتحدثين بتلك اللغات. يقول كومبتون: "إنه أمر مخيب للآمال".

وهو يخشى أن الأجيال الشابة في كندا، التي تأمل في تعلم اللغات في المجتمعات التي خاضت معارك شاقة ضد التمييز لنقل تراثها، قد تلجأ إلى أدوات متاحة عبر الإنترنت مثل تشات جي بي تي أو كتب العبارات الشائعة على منصة أمازون، ما يزيد الأمور سوءاً. ويقول: "هذا احتيال".

سباق مع الزمن

وفقاً لمنظمة الأمم المتحدة للتربية والعلوم والثقافة "يونيسكو"، يصدر إعلان عن انقراض لغة معينة كل أسبوعين. ولكن يبقى السؤال مطروحاً بشأن إن كانت مؤسسة ويكيميديا، التي تدير ويكيبيديا، ملتزمة باللغات المستخدمة على منصتها. عندما تحدثت إلى المديرة العليا في المؤسسة، رونا بهاتاشارجي، قالت إن الأمر متروك لكل مجتمع من المجتمعات المحلية على حدة لاتخاذ القرارات بشأن المحتوى الذي يرغب في نشره عبر إصدار ويكيبيديا الذي يخصه. وقالت: "في نهاية المطاف، تقع المسؤولية على عاتق المجتمع المحلي لضمان عدم وجود أي تخريب أو نشاط غير مرغوب فيه، سواء من خلال الترجمة الآلية أو غيرها من الوسائل". وأضافت بهاتاشارجي أنه عادة ما ينظر في إغلاق الإصدارات فقط في حال تلقي شكوى محددة بشأنها.

ولكن إذا لم يكن ثمة مجتمع محلي نشط، فكيف يمكن تصحيح إصدار معين أو حتى رفع شكوى بشأنه.

أوضحت بهاتاشارجي أن مؤسسة ويكيميديا ترى أن دورها في مثل هذه الحالات يتعلق بالحفاظ على منصة ويكيبيديا في حال ظهور جهة ما لإعادة إحيائها: "إنها المساحة التي نوفرها لهم للنمو والتطور. هذا هو هدفنا".

تعد لغة سامي الإنارية، التي يتحدث بها مجتمع محلي وحيد ناء في شمال فنلندا، نموذجاً لكيفية استفادة الناس من ويكيبيديا. كانت هذه اللغة على وشك الانقراض قبل أربعة عقود، إذ لم يكن هناك سوى أربعة أطفال يتحدثون بها. أنشأ آباؤهم جمعية للغة سامي الإنارية في محاولة أخيرة للحفاظ عليها. وقد تكللت جهودهم بالنجاح.

يوجد الآن عدة مئات من المتحدثين بها، ومدارس تستخدم لغة سامي الإنارية بصفتها وسيلة للتعليم، و6,400 مقال في ويكيبيديا مكتوباً بهذه اللغة، يحرر كل منها أحد المتحدثين بها بطلاقة.

يبرز هذا النجاح قدرة ويكيبيديا على توفير وسيلة فريدة للمجتمعات المحلية الصغيرة والمصممة على الحفاظ على لغاتها. يقول عضو جمعية لغة سامي الإنارية، فابريزيو بريتشيارولي: "نحن لا نهتم بالكم، بل نهتم بالجودة. ويضيف: "نخطط لاستخدام ويكيبيديا مستودعاً للغة المكتوبة. نحن في حاجة إلى توفير الأدوات التي يمكن أن تستخدمها الأجيال الشابة. من المهم أن يتمكنوا من استخدام لغة سامي الإنارية في الفضاء الرقمي".

ويضيف بريتشيارولي أن هذا الأمر قد حقق نجاحاً كبيراً لدرجة أن ويكيبيديا دمجت في المناهج الدراسية في المدارس الناطقة بلغة سامي الإنارية. فهو يتلقى مكالمات هاتفية من المدرسين يطلبون منه كتابة صفحات بسيطة عن مواضيع تتراوح من الأعاصير إلى الفولكلور السامي. حتى إن ويكيبيديا قدمت طريقة لإدخال كلمات في لغة سامي الإنارية. يقول بريتشيارولي: "علينا أن نبتكر كلمات جديدة باستمرار. فالشباب يحتاجون إليها للتحدث عن الرياضة والسياسة وألعاب الفيديو. إذا كانوا غير متأكدين من كيفية التعبير عن شيء ما، فإنهم الآن يراجعون ويكيبيديا".

ويكيبيديا تجربة فكرية ضخمة. وما يحدث مع لغة سامي الإنارية يشير إلى أنه عند إيلاء أقصى درجات العناية، يمكنها تحقيق النجاح في اللغات الأقل انتشاراً. يقول بريتشيارولي: "الهدف النهائي هو ضمان بقاء لغة سامي الإنارية على قيد الحياة. قد يكون من الجيد عدم توفر خيار للغة سامي الإنارية في جوجل ترانسليت".

قد يكون ذلك صحيحاً، على الرغم من أن النماذج اللغوية الكبيرة مثل تشات جي بي تي يمكن أن تترجم عبارات إلى لغات لا توفرها أدوات الترجمة الآلية التقليدية.

أخبرني بريتشيارولي أن تشات جي بي تي لا يتقن لغة سامي الإنارية، ولكن الجودة تختلف بشدة تبعاً لما تطلب منه؛ فإذا سألته سؤالاً باستخدام هذه اللغة، فستكون الإجابة مليئة بكلمات من اللغة الفنلندية وحتى كلمات يخترعها. ولكن إذا سألته سؤالاً باللغة الإنجليزية أو الفنلندية أو الإيطالية ثم طلبت منه الإجابة بلغة سامي الإنارية، فسيكون أداؤه أفضل.

وفي ضوء هذا كله، يصبح إنشاء أكبر قدر ممكن من المحتوى عالي الجودة على الإنترنت بمثابة سباق مع الزمن. يقول بريتشيارولي: "يحتاج تشات جي بي تي إلى الكثير من الكلمات فحسب. إذا واصلنا إضافة مواد جيدة، فعاجلاً أم آجلاً، سنحصل على نتائج مفيدة. هذا ما نأمله. يؤيد هذه الفكرة العديد من اللغويين الذين تحدثت إليهم، ومفادها أنه قد يكون من الممكن إيقاف دورة إنتاج المخرجات السيئة بسبب المدخلات السيئة. (لم تستجب شركة أوبن أيه آي، التي تشغل تشات جي بي تي، لطلب التعليق).

ومع ذلك، من المرجح أن تتفاقم المشكلة العامة، لأن العديد من اللغات لا يحظى بحظوظ مماثلة للغة سامي الإنارية، ومن المرجح أن تتدرب مترجمات الذكاء الاصطناعي على المزيد والمزيد من الترجمات غير المرغوب فيها المولدة بالذكاء الاصطناعي. لسوء الحظ، يبدو وير أقل تفاؤلاً بكثير بشأن مستقبل لغته الغرينلاندية المحبوبة.

فمنذ أن حذف الكثير من محتوى ويكيبيديا باللغة الغرينلاندية أمضى سنوات في محاولة استقطاب أشخاص يتقنون التحدث بها لمساعدته على إحيائها. وقد ظهر في وسائل الإعلام الغرينلاندية ووجه نداءات عبر وسائل التواصل الاجتماعي. لكنه لم يتلق استجابة تذكر، ويقول إن الأمر كان محبطاً.

ويقول: "لا أحد في غرينلاند مهتم بهذا الأمر أو يريد المساهمة فيه. لا جدوى من ذلك على الإطلاق، ولهذا السبب يجب إغلاق هذه النسخة".

في أواخر العام الماضي، بدأ وير عملية مطالبة لجنة اللغات في ويكيبيديا بإغلاق النسخة المكتوبة باللغة الغرينلاندية. تبع ذلك أشهر من النقاش الحاد بين عشرات من موظفي ويكيبيديا؛ وبدا البعض مندهشاً من أن نسخة تبدو سليمة ظاهرياً يمكن أن تبتلى بهذه المشاكل كلها.

ثم، في وقت سابق من شهر سبتمبر/أيلول، حظي اقتراح وير بالقبول: من المقرر إغلاق ويكيبيديا باللغة الغرينلاندية، وستنقل أي مقالات متبقية إلى حاضنة ويكيبيديا، حيث تخضع الإصدارات اللغوية الجديدة للاختبار وتوضع قيد التطوير. ومن بين الأسباب التي ذكرتها اللجنة اللغوية استخدام أدوات الذكاء الاصطناعي، التي "كثيراً ما أنتجت هراء قد يشوه اللغة".

مع ذلك، ربما يكون الأوان قد فات، إذ يبدو أن أخطاء اللغة الغرينلاندية قد ترسخت بالفعل في المترجمات الآلية. فإذا طلبت من جوجل ترانسليت أو تشات جي بي تي تنفيذ مهمة بسيطة مثل العد إلى 10 باللغة الغرينلاندية الصحيحة، فلن يتمكن أي من البرنامجين من إنجاز المهمة بنجاح.

المحتوى محمي