قمة اللغة العربية: جهود لتسخير الذكاء الاصطناعي لخدمة لغة الضاد

4 دقائق
قمة اللغة العربية: محاولات لتسخير الذكاء الاصطناعي لخدمة لغة الضاد
حقوق الصورة: إم آي تي تكنولوجي ريفيو العربية. تصميم: مهدي أفشكو.

تتمتع العلاقة بين اللغة العربية والذكاء الاصطناعي بتاريخ طويل ربما يعود إلى ما بين 30 إلى 40 عاماً. بيد أن السنوات الأخيرة شهدت العديد من المحاولات الحثيثة لتسخير التكنولوجيا الحديثة لخدمة اللغة العربية وتعزيز حضورها، بحسب ما يقوله أستاذ علوم الحاسب الآلي في جامعة نيويورك أبوظبي الدكتور نزار حبش.

اللغة وصناعة الهوية

عُقدت الدورة الأولى من قمة اللغة العربية، التي نظّمتها وزارة الثقافة والشباب الإماراتية، بالتعاون مع مركز أبوظبي للغة العربية التابع لدائرة الثقافة والسياحة - أبوظبي. وشاركت في القمة -التي أقيمت على مدى يومي 20 و21 ديسمبر الماضي، تحت عنوان "اللغة وصناعة الهوية"- نخبة من المفكرين والأدباء والأكاديميين من مختلف أنحاء العالم.

وفي جلسة بعنوان "مستقبل اللغة العربية"، أدارتها مؤسسة ومديرة صالون الملتقى الأدبي أسماء صديق المطوع، وحضرها كل من الدكتور نزار حبش، والمدير التنفيذي لمركز أبوظبي للغة العربية بالإنابة سعيد حمدان الطنيجي، ناقش الحضور العلاقة بين اللغة والتكنولوجيات المتطورة والذكاء الاصطناعي، وكيف تسخّر التقنيات أدواتها لتعزيز حضور ومكانة لغة الضاد.

اقرأ أيضاً: معهد الابتكار التكنولوجي يطلق “نور”: نموذج الذكاء الاصطناعي القادر على معالجة اللغة العربية

وخلال الجلسة، قدّم الدكتور حبش -الذي تم اختياره ضمن قائمة إم آي تي تكنولوجي ريفيو لأبرز خبراء الذكاء الاصطناعي العرب 2022- عرضاً بصرياً شرح خلاله جملة من البرامج والتطبيقات التي تستند على تقنيات الذكاء الاصطناعي التي تخدم اللغة العربية، منها "أدوات كامل" وهي أدوات مفتوحة المصدر تسمح لمَن يرغب في تطوير برمجيات مخصصة للغة العربية أن يستفيد منها، إلى جانب "نظام كامليرا" الذي يقوم بتحليل مباشر وتلقائي للغة العربية، وغيرها من التطبيقات.

بناء الأساس في "مختبر كامل"

في بداية كلمته، أوضح الدكتور حبش أن العلاقة بين اللغة العربية والذكاء الاصطناعي تتمتع بتاريخ طويل يصل إلى ما بين 30 إلى 40 عاماً، بدأ مع شركة "صخر" التي قامت بعمل مهم، قبل أن تضيف شركات كبرى مثل "آي بي إم" و"مايكروسوفت" الكثير إلى هذا العمل لا سيما فيما يتعلق بالمعالجة الآلية للغة العربية، لكنه أشار إلى أن الطريقة التي يتم انتهاجها في الوقت الحالي هي طريقة مختلفة، إذ تحول التركيز إلى بناء "أنظمة مُمكّنة" تهدف لتصبح أساساً يُبنى عليه.

ضرب الدكتور حبش مثلاً بعمله خلال السنوات الماضية في مختبر كامل (CAMel Lab) بجامعة نيويورك أبوظبي، والذي استهدف منذ في البداية بناء أدوات ذكاء اصطناعي ومشاركتها على أساس فكرة المصدر المفتوح، وأوضح أن الغرض الرئيس لهذا النهج هو "بناء الأساس الذي لم يستطع السابقون بناءه"، لتمكين الأفراد والمؤسسات والشركات الناشئة وغيرها من استخدام هذه الأدوات دون قيود، مثل تلك التي تفرضها الشركات الكبرى.

يبلغ عمر "مختبر كامل" اليوم نحو 8 أعوام، وقد نشر نحو 120 ورقة علمية شارك فيها أكثر من 80 شخصاً. وإحدى أبرز الأدوات المُمكّنة التي أنتجها المختبر ما تعرف باسم أدوات كامل (CAMel tools)، وهي مجموعة أدوات مفتوحة المصدر بلغة بايثون، لمعالجة اللغة العربية. وتتميز هذه الأدوات بمرونة استخدامها حتى بالنسبة للمبتدئين، بالإضافة إلى تمتعها بأداء عالي الجودة.

اقرأ أيضاً: الذكاء الاصطناعي واللغة العربية: أهم التحديات وتقنيات معالجتها

" كامليرا" و"سامر"

من بين الأنظمة التي ركز عليها الدكتور حبش خلال عرضه "نظام كامليرا"، وهو محلل آلي مباشر متعدد اللهجات للغة العربية، يمكن للشخص وضع جملة معينة في واجهة هذا النظام القائم على الذكاء الاصطناعي، ليقوم بإظهار خيارات التشكيل وأقسام الكلام بشكلٍ منسق وبنسبة دقة تصل إلى 96%، بالإضافة إلى تقديم شرح للإعراب. وأضاف الدكتور حبش أن هذا النظام يعمل مع 3 لهجات عامية هي المصرية والشامية والخليجية. ولبناء اللهجة الخليجية وحدها، احتاج العاملون في المشروع إلى جمع نحو 100 مليون كلمة منها 200 ألف كلمة قاموا بوسمها يدوياً، كلمة بكلمة، في نظام مخصص لتدريب التعلم الآلي.

" كامليرا" و"سامر"

ثمة مشروع آخر يعمل "مختبر كامل" على تطويره هو "مشروع سامر"، وهو مشروع يساعد في تبسيط روائع الأدب العربي بهدف تشجيع القراءة. يمكن للبرنامج اكتشاف مدى صعوبة الكلمات الموجودة داخل النص وتمييزها بألوان مختلفة تبعاً لدرجة الصعوبة، وإنتاج جمل مبسطة تشرح الجمل صعبة الفهم في الأدب، ويستهدف المشروع وضع معيار لتبسيط الأدب العربي الحديث للمتعلمين في سن المدرسة، وتطوير أداة لقياس "درجة الانقرائية" للغة العربية آلياً.

" كامليرا" و"سامر"

تطرق أستاذ علوم الحاسب الآلي في جامعة نيويورك أبوظبي بعد ذلك إلى مشكلة شائعة، ألا وهي مشكلة التحيز الجنسي في اللغة العربية. والمثال البارز الذي عرضه يمكن أن نراه عند ترجمة جمل مثل (I am a doctor- I am a nurse) من لغة فقيرة من الناحية الصرفية كاللغة الإنجليزية، سنجد أن الترجمة ستكون دائماً "أنا طبيب" و"أنا ممرضة"، ولن تترجم إلى "أنا طبيبة" أو "أنا ممرض"، وهي مشكلة يقول الدكتور حبش إنها موجودة في لغات أخرى بما فيها اللغات الأوروبية كالفرنسية والإسبانية.

لذلك، عمل الباحثون في "مختبر كامل" على تطوير أول "متن متوازٍ للجنس الصرفي باللغة العربية" يتكون من 80 ألف جملة من ترجمات الأفلام التي تم تمييز جنس المتكلم فيها وترجمتها إلى الجنس الآخر. ومن ثم، فإن الواجهة المفتوحة لنظام تعديل الصيغ الجنسية في اللغة العربية تعطي المستخدم جميع الخيارات الممكنة من الناحية الجنسية.

" كامليرا" و"سامر"

"تشات جي بي تي" يكتب باللغة العربية

في سياق آخر، تعاون "مختبر كامل" مع مجموعة من الباحثين من الكلية الجامعية للعلوم التربوية التابعة لوكالة الأمم المتحدة لإغاثة وتشغيل اللاجئين الفلسطينيين "الأونروا"، بقيادة الأستاذة في جامعة أكسفورد شهد عباس، لتطوير قاموس "مكنونة"، وهو قاموس مفتوح المصدر للهجة العربية الفلسطينية يحتوي على أكثر من 36 ألف كلمة أو عبارة بعضها مندثر من 17 ألف مدخل معجمي و3.7 ألف جذر.

اقرأ أيضاً: باحثون من جامعة نيويورك أبوظبي يستخدمون الذكاء الاصطناعي في التعرف على اللهجات العربية المختلفة

في نهاية العرض، تحدث الدكتور حبش عن إمكانات بوت "تشات جي بي تي" (ChatGPT)، الذي أطلقته شركة "أوبن أيه آي" (Open AI) في 30 نوفمبر/ تشرين الثاني الماضي، وقال إن النظام سرعان ما اجتذب اهتماماً كبيراً على مستوى العالم خلال فترة قصيرة للغاية، موضحاً أن من بين القدرات التي تتمتع بها النماذج اللغوية بشكل عام القدرة على إكمال الجمل، لكن هذا النظام أكبر حجماً وأوسع مجالاً إذ إنه تدرب على مئات المليارات من الكلمات وبعدد كبير من اللغات، من ضمنها اللغة العربية.

وأشار إلى أن كل ما يحتاجه "تشات جي بي تي" هو أوامر نصية (يفضل أن تكون بالإنجليزية) لإنتاج نصوص باللغة العربية متقنة إلى حدٍ كبير حول موضوعات مثل الصراع الفلسطيني الإسرائيلي ومستقبل اللغة العربية، كما يمكنه كتابة قصص أو قصائد باللغة العربية، وإن كانت هذه القصائد ركيكة الصياغة حتى الآن، ولكن على الرغم من الطلاقة التي يتمتع بها النموذج في إنتاج النصوص بشكل عام، فإن الدكتور حبش اختتم حديثه بضرورة الحذر من مشكلة اختلاق الحقائق التي يقوم بها البوت أثناء توليد النصوص.

المحتوى محمي