هل ينقذ الذكاء الاصطناعي اللغات المهددة بالانقراض؟

اكتشف سانجيب تشودري (Sanjib Chaudhary) موقع ستوري ويفر (StoryWeaver) بالصدفة، وهو عبارة عن منصة متعددة اللغات لسرد القصص للأطفال، في أثناء بحثه عن كتب يمكنه قراءتها لابنته البالغة من العمر 7 سنوات. تحمل لغة تشودري الأم اسم "كوتشيلا ثارو"، وهي لغة يتحدّث بها نحو 250 ألف شخص في شرق نيبال (للمقارنة، يتحدّث 16 مليون شخص اللغة النيبالية، وهي اللغة الرسمية في نيبال).

لا توجد كمية من المواد الرقمية التي تخص اللغات التي يستخدمها عدد قليل نسبياً من البشر (مثل لغة كوتشيلا ثارو) تكفي لازدهار المجتمعات التي تتحدث بهذه اللغات؛ إذ لا تتوفر ترجمة لهذه اللغات على موقع جوجل ترانزليت (Google Translate)، ولا توجد ترجمات لها في الأفلام والمسلسلات، ولا توجد أي صحف على الإنترنت مكتوبة بها. توصف هذه اللغات في هذا المجال بأنها "غير مخدّمة" أو "ناقصة الموارد".

ما وظيفة موقع ستوري ويفر؟

وهنا يدخل موقع ستوري ويفر المعادلة. تم تأسيس هذا الموقع من قبل المنظّمة التعليمية الهندية غير الربحية، براثام بوكس (Pratham Books)، وهو يحتوي حالياً على أكثر من 50 ألف قصة ذات رخصة مفتوحة تغطي جميع مستويات القراءة ومكتوبة بأكثر من 300 لغة من جميع أنحاء العالم.

يستطيع مستخدمو هذا الموقع البحث عن القصص من خلال مستوى القراءة واللغة والمواضيع. وبعد انتقاء إحدى القصص، يمكنهم تصفّح الشرائح المصورة (والتي تشبه صفحات الكتب) التي تحتوي على نصوص مكتوبة باللغة التي اختاروها. (هناك أيضاً قصص ثنائية اللغة، والتي يتم فيها عرض لغتين جنباً إلى جنب، مع توفر خيارات تحميل القصص والاستماع لها).

تعتبر القصة بعنوان "ابتسم من فضلك" (Smile Please)، وهي قصة عن مغامرات ظبي صغير في الغابة، الأكثر قراءة حالياً. كُتبت هذه القصة المخصصة للمبتدئين في الأصل باللغة الهندية، وتمت ترجمتها إلى أكثر من 147 لغة، كما تمت قراءتها أكثر من 281 ألف مرة.

محاولة لإحياء اللغات المهمشة

تُعتبر غالبية اللغات الموجودة في هذا الموقع من اللغات الإفريقية والآسيوية كما يُعتبر الكثير منها من اللغات الأصلية التي يقل عدد المتحدثين فيها في عالمنا الذي تتمتع فيه اللغة الإنجليزية بهيمنة شبه تامة. تعكس تجربة تشودري هذه المشكلة؛ إذ إنه يقول: "تتمثل المشكلة عند التعامل مع الأطفال في أنهم يفضلون قراءة الكتب القصصية المكتوبة باللغة الإنجليزية بدلاً من لغتهم الأم لأن هذه اللغة أكثر سهولة بكثير. يُعتبر الإملاء في لغة كوتشيلا ثارو صعباً، وكذلك الأمر بالنسبة لتعلم الكلمات. بالإضافة إلى ذلك، يتعرض الأطفال للغة الإنجليزية كثيراً في المدارس وعند مشاهدة التلفاز".

يمكن لأدوات الترجمة المدعومة بالذكاء الاصطناعي مثل ستوري ويفر أن تزيد تفاعل المتحدّثين باللغات المختلفة مع بعضهم؛ لكن هذه التكنولوجيا ما تزال حديثة، وهي تعتمد على البيانات التي يمكن توفيرها فقط من قبل الأشخاص الذين يتحدثون اللغات غير المخدّمة. تثير هذه المشكلة المخاوف بشأن الطريقة التي سيتم وفقها تقييم عمالة الأشخاص الذين يتحدثون هذه اللغات والذين يزودون أدوات الذكاء الاصطناعي بالبيانات، بالإضافة إلى طرق طرح البيانات اللغوية تجارياً في هذه المواقع.

كيف سيتم جمع البيانات اللغوية لتدريب نماذج الذكاء الاصطناعي؟

لفهم كيفية عمل أدوات الترجمة المدعومة بالذكاء الاصطناعي مثل ستوري ويفر؛ من المفيد إلقاء نظرة على لغات الهند. يحتوي هذا البلد على 22 لغة رسمية وأكثر من 780 لغة محكية، لذلك ليس من قبيل المصادفة أن الهند هي مركز لابتكار التكنولوجيات متعددة اللغات. تم استلهام فكرة موقع ستوري ويفر من إحدى أدوات معالجة اللغة الطبيعية التي طورتها شركة مايكروسوفت ريسيرتش إنديا (Microsoft Research India)؛ والتي تحمل اسم تكنولوجيا تنبؤ الترجمة الآلية العصبية التفاعلية، أو آي إن إم تي اختصاراً.

على عكس معظم أدوات الترجمة التجارية والمعتمدة على الذكاء الاصطناعي، لا يتم الاستغناء في أداة آي إن إم تي عن الوساطة البشرية تماماً. بدلاً من ذلك، فهي تساعد المستخدمين من خلال توفير التلميحات باللغة التي ينقلون النصوص إليها. على سبيل المثال؛ إذا بدأت بكتابة العبارة "إنها تمطر" في اللغة التي تريد الترجمة إليها، سيقدّم النموذج الذي يعمل في الواجهة الخلفية عبارات مثل "الليلة" أو "بشدّة" كخيارات لإكمال الجملة، وذلك بناءً على السياق والكلمة، أو مجموعة الكلمات، السابقة للجملة التي كتبتها.

تقول الباحثة الرئيسية في شركة مايكروسوفت وأحد مصممي أداة آي إن إم تي، كاليكا بالي (Kalika Bali) إن هذه الأداة تأخذ بالاعتبار معنى الجمل في اللغة الأصلية خلال الترجمة، ثم تولّد خيارات يستطيع المترجم الانتقاء منها.

تتيح الأدوات مثل آي إن إم تي لكادر المتطوعين في موقع ستوري ويفر ترجمة القصص بسرعة. ويُعتبر إتقان استخدام واجهة المستخدم في هذا الموقع سهلاً حتى بالنسبة للمترجمين الهواة والذين يُعتبر الكثير منهم؛ مثل تشودري، إما متطوعين في الموقع أو من الذين يعملون بالفعل مع المنظمات غير الربحية المتخصصة في مجال تعليم الأطفال الصغار.

تشوركي هانسدا (Churki Hansda) هي واحدة من هؤلاء، وهي تتحدث لغتيّ كورا وسانتالي غير المخدّمتين. تعمل هانسدا كموظفة في جمعية مجتمع سوتشانا أوتور في مقاطعة تشانديبور الهندية (Suchana Uttor Chandipur Community Society)، وهي إحدى المنظمات الشريكة لموقع ستوري ويفر والمنتشرة في جميع أنحاء العالم. تقول هانسدا: "لم تكن الكتب القصصية متوفرة في طفولتنا. استُخدمت اللغة البنغالية (وهي اللغة الإقليمية السائدة) في الكتب المدرسية. وكنا نُضطر لحفظ جميع المعلومات الواردة فيها لأننا لم نتمكن من فهم ما كنا نقرأه"، وتضيف: "تجعلني قدرتنا على تأليف الكتب للأطفال بلغتنا أشعر بشعور جيد".

أدوات التعرف على الصوت وبرامج الدردشة لجذب العملاء

تقدّر مديرة المحتوى والشراكات في منظمة براثام بوكس، أنا سينغ (Ana Singh) أن 58% من اللغات الموجودة في موقع ستوري ويفر هي من اللغات غير المخدّمة، وهو أمر له عواقب كبيرة على نتائج التعلم في مرحلة الطفولة المبكرة. ترتبط محاولات معالجة مشكلة إهمال المجتمعات التي تتحدث باللغات غير المخدمة ارتباطاً وثيقاً بتحويل هذه المجتمعات إلى مجتمعات مستهلكة.

وتؤدي تكنولوجيا الترجمة المدعومة بالذكاء الاصطناعي دوراً ضرورياً في عملية التحويل هذه. يتمثّل الهدف من تطوير أدوات التعرف على الصوت وبرامج الدردشة التي تستخدم اللغات الهندية الإقليمية في جذب العملاء الذين يعيشون خارج المدن الكبرى، وهذه سوق من المتوقع أن تتوسع نظراً لانخفاض تكلفة استخدام البيانات الخلوية.

مشكلة توافر البيانات: أولاً وكثيراً

تتعلق جودة هذه الأدوات بالبيانات التي تستخدم لتدريب خوارزميات الذكاء الاصطناعي التي تعمل وفقها، ويُعتبر تحديد مصادر هذه البيانات تحدّياً كبيراً. لتصبح نماذج ترجمة الآلة على الإنترنت متعددة اللغات بشكل مستدام، فهي تتطلب تخصيص كمية كبيرة من بيانات التدريب التي يتم إنشاؤها بلغتين مختلفتين بنفس الوقت. وتُعدّ التقارير البرلمانية والمنشورات الإعلامية مصادر شائعة للبيانات المتاحة للجمهور، ويمكن استخدامها لأغراض تدريب الخوارزميات.

لكن وفقاً لبالي؛ يُعتبر هذان المصدران تخصصيين للغاية، وهما لا يشملان مصطلحات متنوعة بما يكفي من ناحية الموضوعات والمفردات لتمثيل الكلام البشري بشكل جيد (لهذا السبب لا يُعتبر موقع ستوري ويفر مصدراً مناسباً لبيانات التدريب، ذلك أن الجمل الموجودة في كتب الأطفال تكون بسيطة للغاية ولا يتجاوز مستوى القراءة للنصوص المتوفرة مستوى الصف الرابع).

اقرأ أيضاً: نظام ذكاء اصطناعي متعدد اللغات من فيسبوك يستطيع الترجمة ما بين 100 لغة

بغض النظر عن المتطلبات الفنية، غالباً يكون العمل في مجال البيانات تطوعياً أو ذا تعويضات منخفضة كما أنه يتم في مؤسسات لا تخضع للرقابة القانونية. هناك قلق متزايد بشأن حقوق العاملين من وراء الكواليس الذين يجمّعون مجموعات البيانات بهدف تدريب أنظمة الذكاء الاصطناعي.

يُعرف هؤلاء بعمال الجماهير، وهم يقومون بمهام آلية ومتقطعة متنوعة، من وسم صور الأشجار والمشاة لتدريب السيارات ذاتية القيادة إلى تحديد علامات المرض في عمليات المسح الطبي. يمتلك هذا النوع من العمل "الشبحي" الرتيب بعداً عاطفياً عندما يتعلق الأمر بالحفاظ على اللغات المعرضة للزوال. يُحفّز العاملون في مجال البيانات اللغوية والذين يسهمون في تدريب نماذج الترجمة الآلية بتعزيز مكانة لغتهم لدرجة أنهم يتخلون عن مسائل مهمة مثل التعويضات العادلة والإشراف على البيانات لصالح إبراز أهمية عملهم من منظور ثقافي.

معاناة عمال الجماهير

في الواقع، فإن القيمة الثقافية لهذا العمل هائلة. ازدادت قدرة ابنة تشودري على فهم لغة كوتشيلا ثارو مقارنة بما كانت عليه قبل بضعة سنوات، وازداد انخراط تشودري في نشاطات موقع ستوري ويفر منذ ذلك الحين. على مدار العام ونصف العام الماضيين، عمل تشودري واثنان من أصدقائه على توليد عدد من الكلمات في اللغة النيبالية يعادل 40 ألف كلمة في اللغة الإنجليزية؛ لكنهم حصلوا على 243 دولاراً فقط مقابل عملهم، أو أقل من سنت واحد لكل كلمة بالإنجليزية، وهو مبلغ تم تقسيمه عليهم. وفقاً لبالي؛ تحتاج نماذج الذكاء الاصطناعي إلى 100 ألف جملة مقترنة للبدء في توليد ترجمات مقبولة.

على الرغم من أن هذا العمل رتيب ولا تُعتبر تعويضاته مرتفعة، فإن تشودري يعتبر نفسه راعياً للغته وليس من عمال الجماهير. ويقول: "هناك الكثير من الكلمات أحادية الصوت في لغة كوتشيلا ثارو والتي لا توجد باللغة الإنجليزية. خذ أسماء الأسماك كمثال؛ هناك العديد من الكلمات التي تقابل كلمة 'سمكة' وعبارات مثل 'معدات صيد الأسماك' وعمليات تحضير الأسماك التي لا توجد في اللغات الأخرى". يضيف تشودري قائلاً: "إذا انقرضت لغتنا، فسنفقد هذه الكلمات وأريد أن أقوم بتجميع هذا النوع من الكلمات قبل أن تختفي".

يُعتبر التأمل في مستقبل تزدهر فيه اللغات المهمشة على الإنترنت حافزاً كبيراً للأشخاص مثل تشوندري وهانسدا. أدى عمل هانسدا مع موقع ستوري ويفر إلى حصولها على فرصة عمل مأجور مع منظمة أيه آي فور بهارات (AI4Bharat والتي تعني "الذكاء الاصطناعي من أجل الهند")، وهي مبادرة أطلقها المعهد الهندي للتكنولوجيا في مدينة تشيناي تختص بجمع البيانات على شكل أزواج موسومة باللغة الإنجليزية و12 لغة هندية. تغطي الجمل البالغ عددها 100 ألف جملة والتي ستضيفها هانسدا إلى مجموعة بيانات منظمة أيه آي فور بهارات الخاصة باللغة السنتالية على مدار 18 شهراً القصص التاريخية الشفوية والحكايات الشعبية والأدب والجمل والكلمات العامة. تتلقى هانسدا 1.66 دولاراً في الساعة مقابل هذا العمل بصفتها "خبيرة لغوية".

تحقيق المساواة بين اللغة الإنجليزية واللغات الهندية في مجال تكنولوجيا الذكاء الاصطناعي

ليكون مجال البحث اللغوي المدعوم بالذكاء الاصطناعي خاضعاً للمساءلة ومحفّزاً على الابتكار حقاً؛ يجب على العاملين فيه ضمان ألا تقتصر إسهامات المتحدثين الأصليين ومجتمعاتهم على جمع البيانات. فبالإضافة إلى ذلك، يجب أن يسهم هؤلاء في تحديد طرق استخدام هذه البيانات. حالياً، تسعى منظمة أيه آي فور بهارات إلى "تحقيق المساواة بين اللغة الإنجليزية واللغات الهندية في مجال تكنولوجيا الذكاء الاصطناعي من خلال الإسهامات مفتوحة المصدر".

من الناحية النظرية، يضمن ذلك أن يؤدي الانفتاح مباشرة إلى تجنب الإقصاء. لكن من الناحية العملية، لا توجد أي مبادئ توجيهية واضحة تمنع الشركات التي تطور تكنولوجيا الذكاء الاصطناعي من استخدام مجموعات البيانات التي تم جمعها من قبل هيئات بحثية غير تجارية مثل الجامعات والمنظمات غير الربحية. على سبيل المثال؛ تصنف منظّمة أيه آي فور بهارات مجموعات البيانات التي تم تجميعها بواسطة الجماهير على أنها مفتوحة المصدر؛ ما يعني أنه يمكن طرح إسهامات مثل التي تقدمها هانسدا تجارياً بهدف الحصول على الربح في المستقبل.

لا شك في أن ذلك حدث من قبل؛ إذ أعلنت شركة ميتا في خريف عام 2022عن أنه تم تدريب أداة الذكاء الاصطناعي التي تحمل اسم ميك أ فيديو (Make-a-Video)، والتي لم يتم إطلاقها بعد، باستخدام مجموعات البيانات التي تم جمعها من مقاطع الفيديو المتوفرة للعموم في موقعيّ يوتيوب (YouTube) وشترستوك (Shutterstock). أطلق الخبير التكنولوجي، أندي بايو (Andy Baio)، على هذه الممارسة وصف "غسل بيانات الذكاء الاصطناعي"، وقال: "إن الاستعانة بالكيانات غير التجارية لإنجاز العمل الصعب المتمثل في جمع البيانات وتدريب نماذج الذكاء الاصطناعي يتيح للشركات تجنّب المساءلة والمسؤولية القانونية".

حالياً، يُعتبر السعي نحو عدم إقصاء اللغات في مجال التكنولوجيا، سواءً بهدف الربح أو النشاط الاجتماعي أو الابتكار التكنولوجي أو حتى مزيج من الثلاثة، مثيراً للحماس بالنسبة للمتحدثين باللغات ضيقة الانتشار. تأمل هانسدا أن يتمكن أحفادها من استخدام اللغة السنتالية بسهولة على الإنترنت في المستقبل. وتقول: "سيقول أحفادي أني أسهمت في تحقيق هذا الهدف".