في اليوم العالمي للغة العربية الذي يصادف يوم 18 ديسمبر من كل عام، لا بدّ من وقفة تأمل للعلاقة التي تربط بين لغتنا ولغة العصر: الذكاء الاصطناعي.
مَن بيننا لم يتساءل: لِمَ لا أستطيع مخاطبة معظم المساعدات الصوتية باللغة العربية؟ لِمَ لا يمكنني إجراء محادثة مع سيري باللهجة الخليجية أو المصرية؟ لماذا لا تستطيع أليكسا أن تفهم وتنفذ أوامري الصوتية باللهجة الشامية أو المغاربية؟ عندما أستخدم ترجمة جوجل، لماذا تترجم اختصار الذكاء الاصطناعي (AI) من الإنجليزية إلى العربية: (منظمة العفو الدولية)؟ لماذا -ضمن مجموعة واسعة من برامج تحويل الكلام إلى نص مكتوب- ليس هناك إلا حفنة منها تدعم اللغة العربية؟ لماذا يصر المصحح التلقائي للكتابة في الهاتف على أن الكلمة العامية التي أكتبها خاطئة، ويقترح عليّ بدائل فُصحى؟
بالطبع، جميع هذه الأدوات تعتمد على تقنيات الذكاء الاصطناعي، الذي نسمع باستمرار عن قدراته “الخارقة”. فهل عَجِزَ البطل أمام “مطبات” اللغة العربية وأحجم عن تجاوزها؟ هل عجز التعلم العميق عن الغوص عميقاً في كنوز لغتنا والخروج بقصة خيالية متماسكة كما نجح في الإنجليزية؟ هل ارتبكت معالجة اللغات الطبيعية وصَعُب عليها هضم قصائد الشعر العربي والإتيان ببيت على شاكلة شعر المتنبي أو نزار قباني، مع أنها قامت بأمر مماثل مع أشعار روبرت فروست؟
لماذا يعاني الذكاء الاصطناعي في توطيد علاقته بلغة الضاد التي يتحدثها حوالي 450 مليون شخص؟
لعلَّ الخلل في اللغة العربية؟! أم ربما سوء تفاهم بينها وبين التكنولوجيا؟
للإجابة عن هذه الأسئلة، نستعرض فيما يلي أبرز التحديات التي يواجهها الباحثون في تطوير أنظمة ذكاء اصطناعي قادرة على معالجة اللغة العربية وفهم اللهجات المحلية. كما نتناول أهم الجهود المبذولة لتذليل هذه العقبات.
أهم تحديات الذكاء الاصطناعي عند معالجة اللغة العربية
يواجه دعم الذكاء الاصطناعي للغة العربية جملة من الصعوبات، إليكم أهمها:
1. الشحّ في موارد اللغة العربية
تعتمد أنظمة الذكاء الاصطناعي على توافر كميات كبيرة من البيانات لتدريب النماذج اللغوية سواء كانت الغاية ترجمة النص أو التعرف على اللهجة التي كُتب بها أو تحديد الكلمات ونوعها (فعل أو اسم أو غيرهما) أو تحويل الكلام إلى نص مكتوب. وفي مجال معالجة اللغات الطبيعية تسمى هذه البيانات موارد أو مكانز لغوية. وفي الترجمة الآلية على سبيل المثال، كلما كان حجم البيانات أكبر، استطاعت الحواسيب أن تحدد على نحو أكثر دقةَ المصطلح العربي الأكثر استخداماً باعتباره الترجمة الصحيحة لمصطلح في لغة أخرى.
وفي حين يتوافر كمٌّ هائل من الموارد في اللغة الإنجليزية، تعد اللغة العربية من اللغات الفقيرة نسبياً بالموارد الموسومة الضرورية في تدريب نماذج الذكاء الاصطناعي. وتمثل هذه المسألة أحد التحديات التي تواجه باحثي اللسانيات الحاسوبية العاملين في معالجة اللغة العربية. حيث يضطر هؤلاء في معظم الأحيان إلى بناء مواردهم الخاصة ووسمها، مع ما يتطلبه ذلك من وقت وجهد وتمويل.
ويقول الدكتور نزار حبش، أستاذ في برنامج علوم الحاسوب في جامعة نيويورك أبوظبي ومدير مختبر الأساليب الحاسوبية لنمذجة اللغة (مختبر كامل CAMeL)، إنه حتى عام 2018، كانت هناك أربعة موارد بيانات موسومة نحوياً للغة العربية، وجميعها تم تطويره خارج العالم العربي: اثنان في الولايات المتحدة، وواحد في المملكة المتحدة وواحد في جمهورية التشيك. هذه الموارد مهمة جدا للبحث العلمي ولتطوير تطبيقات الذكاء الاصطناعي اللغوي.
2. تعدد اللهجات العربية
هناك ثلاثة أشكال للغة العربية: فصحى التراث، المستخدمة في الوثائق والنصوص التاريخية، والفصحى المعاصرة، وهي اللغة الرسمية في الدول العربية والمستخدمة في الصحف ووسائل الإعلام، واللهجات العامية، المستخدمة في الشارع والأحاديث اليومية بين الناس.
ورغم أن الأخيرة لم تكن مكتوبة على نطاق واسع، إلا أن ظهور وسائل التواصل الاجتماعي جعل منها الشكل الأكثر استخداماً في التعبير عن مشاعر وأفكار الشعوب العربية؛ ما أبرز الحاجة إلى بناء موارد بيانات لهذه اللهجات ومعالجتها آلياً سواء لتحليل مشاعر الجمهور أو تحديد مدى رضا العملاء أو اكتشاف مواقف المواطنين من السياسات الحكومية أو الاعتماد على بوتات دردشة تستطيع مخاطبة المستخدم بلهجته المحلية، وغيرها من الاستخدامات.
لكن المشكلة تكمن في أن هذه اللهجات تختلف في كتابتها و”قواعدها” عن اللغة العربية الفصحى، بالتالي فإن نماذج التعلم الآلي التي جرى تدريبها على موارد اللغة الفصحى ستفشل تماماً في التعامل مع النصوص المكتوبة باللهجة العامية والتعرف على كلماتها. أضف إلى ذلك التنوع الكبير في اللهجات من المغاربية إلى الخليجية إلى المصرية والشامية والعراقية، بل حتى أن هناك تبايناً في اللهجات بين سكان البلد الواحد. وكل ذلك يزيد من صعوبة تطوير نماذج ذكاء اصطناعي تستطيع التعرف على كل لهجة منها والتهجئات المختلفة لنفس الكلمة.
3. الإبهام الإملائي والثراء الصرفي
تتسم اللغة العربية بالغموض الإملائي؛ إذ يمكن للجذر اللغوي الواحد توليد العديد من الكلمات ذات المعاني المختلفة. كما يختلف شكل الحرف نفسه حسب موقعه داخل الكلمة. كما أن الحروف العربية لا تحتوي على أحرف كبيرة أو صغيرة، ما يجعل تحديد أسماء العلم أو الكيانات أمراً صعباً.
عَلَاوَةً عَلَى ذلِكَ، هُنَاكَ مَسْأَلَةُ التَّشْكِيل؛ إِذْ تُغيّرُ عَلَامَاتُ التَّشْكيل النُّطْقَ والصِّيغَةَ النَّحْوِيّة وحَتَّى مَعْنَى الكَلِمَاتِ فِي بَعْضِ الأَحْيَان. وَفي المُقابل، يُؤدِّي افتِقارُ الكَلِمَةِ إِلَى التَّشْكِيل -وَنَادِراً مَا يَتمُّ تَشْكِيلُ الكَلِمَاتِ حَتَّى فِي الصُّحُفِ الرَّسْميَّة- إِلى زِيَادةِ الِالْتِباسِ الدِّلَالِيّ. وَلَو عَلِمْنا أنَّ كُلَّ حَرفٍ مِن حُروفِ اللُّغَةِ العَرَبيَّة يَحْتَمِل فِي المُتَوسِّط 7 عَلامَاتِ تَشْكيلٍ مُمْكِنَة، يَتَّضِحُ مَدَى صُعُوبَةِ وَسْمِ الكَلِمَاتِ وَتَدْريبِ خَوارِزْمِيَّاتِ الذَّكَاءِ الاِصْطِنَاعِيّ عَلَى فَكّ غُمُوضِهَا واسْتِيعَابِ مَعَانِيهَا، وتَتَّضِحُ أَيْضاً أَهَمِّيَّةُ بِنَاءِ أَنْظِمَةِ تَشْكِيلٍ لِلُّغَةِ العَرَبِيَّة فِي تَصْمِيمِ تَطْبِيقَاتِ مُعَالَجَتِها.
وفي ندوة افتراضية أقامتها هارفارد بزنس ريفيو مؤخراً بعنوان “الذكاء الاصطناعي واللغة العربية: تحديات وحلول“، قال الدكتور حبش إن اللغة العربية تمتلك نظاماً صرفياً غنياً ينتج تراكيب صرفية كثيرة. وعلى سبيل المثال، كلمة “وسنقولها” تمثل واحداً من مئات التصريف الممكنة للفعل “قال”.
وفي حين يعتقد المرء أن اللهجات العامية تخلو من هذا التعقيد الصرفي، يشير الدكتور حبش إلى أنها قد تكون أكثر صعوبة من الفصحى في بعض الأحيان، ويورد مثالاً على عبارة “لا يقولها” باللهجة المصرية.
ووفقاً لما قالته كندا الطربوش، الرئيسة التنفيذية في محرك البحث لبلب، لإم آي تي تكنولوجي ريفيو العربية، فإن الغنى الصرفي للغة العربية يمثل أهم التحديات التي تواجه محركات البحث الحالية؛ حيث إن أغلب الأدوات الحالية المستخدمة في معالجة التصريف لا تلبي تطلعات تطوير محركات بحث ذكية قادرة على تمييز الكلمات العربية المتقاربة في الشكل والمختلفة في المعنى. وأوردت مثالاً حين يقوم المستخدم بكتابة استعلام بطريقة خاطئة ومستعجلة، كأن يكتب “دفع الإلكترون” عوضاً عن “الدفع الإلكتروني”؛ حيث إن كلمتي “الإلكترون” و”الإلكتروني” مختلفتان من حيث المعنى، ما يؤدي إلى حصول المستخدم على نتائج بحث خاطئة.
4. محدودية البحث العلمي في مجال معالجة اللغة العربية
من نافل القول أن البحث العلمي في الدول العربية بشكل عام لا يحظى بالدعم والتشجيع الذي يستحقه، ومجال الذكاء الاصطناعي ليس استثناءً. فعلى الرغم من وجود عدد كبير من الباحثين العرب في علوم الحاسوب واللسانيات واللغة، فإنهم لا يحصلون على ما يكفي من التمويل الحكومي أو الخاص لإجراء أبحاثهم.
علاوة على ذلك، فإن عقلية المصادر المفتوحة غائبة في منطقتنا عموماً؛ حيث تحتكر الشركات أبحاثها العلمية وأدواتها ومواردها خوفاً من المنافسة. وكذلك الحال في التعاون البحثي بين الجامعات ومراكز الأبحاث، ما يرغم الباحثين في مجال معالجة اللغة العربية على بناء مواردهم الخاصة وتطوير خوارزمياتهم من نقطة الصفر.
قد يهمك أيضاً:
أبرز حلول الذكاء الاصطناعي في معالجة اللغة العربية
إن هذه التحديات آنفة الذكر تجعل من اللغة العربية حالة فريدة من نوعها بالنسبة لتقنيات الذكاء الاصطناعي، وتفرض على المتخصصين بذل جهود مكثفة على عدة مستويات لتمكين هذه التقنيات من التعامل معها واستيعابها. نستعرض فيما يلي جانباً من هذه الجهود التي لا يتسع المجال هنا لذكرها كلها، لذا نورد بعض الأمثلة.
قام الدكتور حبش وفريقه من الباحثين في جامعة نيويورك أبوظبي بتطوير نظام قائم على الذكاء الاصطناعي يستطيع التعرف تلقائياً على العربية الفصحى واللهجات المختلفة في 25 مدينة عربية. ويقوم النظام المسمى عديدة (ADIDA) بالتعرف على النص الذي يدخله المستخدم ثم يظهر خريطة جغرافية للوطن العربي تبيِّن المدن التي تستخدم هذا النص، ثم يعرض المدن الخمسة الأولى التي يحتمل أن يستخدم سكانها هذه الطريقة في الكلام والكتابة (يمكنك تجربة نظام ADIDA هنا).