كيف تمكنت أليكسا من التكلم باللغة العربية واللهجة الخليجية؟

هل تعرف شخصاً أجنبياً يتعلم اللغة العربية؟ ربما أخبرك بالمشقة التي يواجهها في فهمها، وصعوبة إتقانها مقارنة بغيرها من اللغات؛ إذ تتميز اللغة العربية بقواعدها المتعددة وعدد كلماتها الكبير وتركيباتها الكلامية الغنية وأسلوب كتابتها المختلف عن معظم اللغات الأخرى، ناهيك عن تعدد لهجاتها واختلافها عن بعضها بعضاً وحتى عن اللغة العربية الفصحى الحديثة (MSA).

حسناً، يبدو أن هذه الصعوبات لم تواجه البشر فقط وإنما الآلات أيضاً. فقد واجه المساعد الصوتي الذكي لشركة أمازون، المعروف باسم أليكسا (Alexa)، العديد من التحديات في رحلته لتعلم اللغة العربية.

لفترة طويلة، واجه الباحثون صعوبات في تطوير أنظمة ذكاء اصطناعي قادرة على معالجة اللغة العربية وفهم لهجاتها المحلية. لكن اليوم حين تستخدم أحد الأجهزة الذكية التي تنتجها شركة أمازون، مثل مكبر الصوت أمازون إيكو (Amazon Echo)، وتتحدث إلى أليكسا باللغة العربية وتتلقى إجابتها، ستشعر أن الأمر بسيط، وأن تعليمها العربية ربما لم يكن سوى عملية تدريب واسعة على عدة مجموعات بيانات ضخمة. لكن الواقع أن رحلة التعلم هذه كانت شاقة، وتضمنت تحديات فريدة من نوعها، لم تواجهها أنظمة الذكاء الاصطناعي مع أي لغة أخرى على الأرض. في هذه المقالة، نستعرض بعضاً من جوانب هذه الرحلة، والتحديات التي حفلت بها.

الفصحى أم اللهجات المحلية؟

في مقالة نشرتها أمازون بعنوان "كيف تعلمت أليكسا اللغة العربية"، أوضحت الشركة أن أحد أول التحديات التي واجهتها قبل إطلاق النسخة العربية من أليكسا في ديسمبر الماضي، في المملكة العربية السعودية والإمارات العربية المتحدة، هو شكل اللغة العربية التي يجب أن تتكلم بها. ففي حين أن اللغة الرسمية المكتوبة في دول الخليج العربي هي اللغة العربية الفصحى الحديثة، فإن المتحدثين باللغة العربية يستخدمون لهجات مختلفة في حياتهم اليومية، تتمايز ألفاظها العامية بشكل كبير.

رأى فريق الذكاء الاصطناعي أن تعامل العملاء مع أليكسا بلهجاتهم الأصلية سيكون أكثر واقعية من التحدث إليها بالعربية الفصحى. لذلك فمن الأفضل أن تكون أليكسا العربية قادرة على فهم كل من اللغة العربية الفصحى واللهجات الخليجية.

اقرأ أيضاً: لماذا لا يثق الأطفال في أليكسا؟

هذا بالنسبة للطلبات. أما بالنسبة للردود، فمن الأفضل أن تكون مخرجات أليكسا بالفصحى في الكلام الرسمي، مثل الردود على طلبات المعلومات، وباللهجات الخليجية عندما تتحدث في المواقف الأقل رسمية، مثل تأكيد أوقات التنبيه واختيار الموسيقى. وبالتالي، فقد يطلب الشخص شيئاً من أليكسا بلهجة معينة فيتلقى رداً بلهجة أخرى.

توضح مديرة التحرير في أمازون أليكسا، نور طاهر، في مقابلة نُشرت هذا الشهر في منصة فورتشن العربية، أن أليكسا العربية تتيح للمستخدمين في منطقة الخليج العربي التحدث مع تقنية الذكاء الاصطناعي الصوتي، مع خيار التحدث باللهجة الخليجية أو باللغة الإنجليزية. وتتضمن قدراتها إمكانية تنفيذ طلب تلاوة القرآن الكريم بصوت المقرئ المفضل وقراءة الأخبار والتحكم بالأجهزة المنزلية ومكيفات الهواء المتوافقة، بالإضافة إلى ميزة ضبط المؤقتات والمنبهات ومعرفة نتائج المباريات الرياضية، وغيرها، دون استخدام اليدين.

كما تمتلك أليكسا حالياً العديد من المهارات الأخرى مثل إلقاء التحية وتهاني الأعياد بعدة لهجات خليجية، بالإضافة إلى قراءة قصائد وغيرها من النشاطات.

وتزامناً مع إطلاق أليكسا في الإمارات العربية المتحدة والمملكة العربية السعودية في نهاية 2021، أطلقت شركة مجرة، المتخصصة في تقديم المحتوى العربي عبر الإنترنت، مهارة أو "سكيل" (Skill) النصيحة الإدارية من هارفارد بزنس ريفيو العربية عبر "أليكسا"، لتقديم نصائح يومية في علم الإدارة.

يُمكن استخدام النصيحة الإدارية من خلال طرح سؤال باللغة العربية الفصحى أو باللهجة الخليجية: "أليكسا، ما جديد عالم الأعمال اليوم؟"، لتُقدم له نصيحة إدارية في هذا الخصوص.

هل يجب أن تتضمن مخرجات "التعرف التلقائي على الكلام" علامات التشكيل أم لا؟

يتكّون نموذج أليكسا من ثلاثة مكونات أساسية هي: التعرف التلقائي على الكلام (ASR)، وهو التقنية التي تُمكن الأجهزة الإلكترونية والأنظمة الحاسوبية من فهم الكلمات المنطوقة وتحويل الكلام إلى نص. وفهم اللغة الطبيعية (NLU)، وهو أحد فروع معالجة اللغة الطبيعية والذي يسمح للحواسيب بفهم وتفسير اللغات البشرية، من خلال تحليل عناصر الجمل في النصوص أو الكلام المنطوق للشروع في العمل. أما المكّون الثالث والأخير فهو تحويل النص إلى كلام (TTS)، الذي يحوّل مخرجات "فهم اللغة الطبيعية" إلى كلام مصطنع (مركب).

بعد الاستقرار على الفصحى واللهجات الخليجية، فإن التحدي التالي الذي واجه الفريق هو ما إذا كان يجب أن تتضمن مخرجات "التعرف التلقائي على الكلام" علامات التشكيل أم لا. كان الأمر مهماً لأن أحد الاختلافات الرئيسية بين اللهجات هو أصوات حروف العلة، لذلك فإن حذف التشكيل يجعل من الأسهل إنشاء تمثيل للكلام ينطبق على جميع اللهجات، الأمر الذي يعود بالفائدة على مرحلتي "التعرف التلقائي على الكلام"، و"فهم اللغة الطبيعية".

بالإضافة إلى ذلك، لا توجد كتابات منشورة بأشكال أخرى للغة العربية غير الفصحى، لذلك لا توجد قواعد لكتابة هذه اللهجات أيضاً. وقد تؤدي إضافة علامات التشكيل إلى المزيد من الالتباس أكثر مما تخفف.

في نهاية المطاف، قرر فريق الذكاء الاصطناعي الخاص بأليكسا أن مخرجات "التعرف التلقائي على الكلام" يجب أن تتضمن علامتي تشكيل فقط، وهما الشدة والمدة، لأنهما تساعدان على إحكام دقة نطق الأسماء التي تمر من مرحلة "التعرف التلقائي على الكلام" إلى "فهم اللغة الطبيعية" وصولاً إلى مرحلة "تحويل النص إلى كلام".

وقد كانت لقرارات التصميم هذه تداعيات مختلفة على فرق الذكاء الاصطناعي الخاصة بالمكونات الثلاثة. وبالطبع، واجه كل فريق تحدياته الخاصة.

التعرف التلقائي على الكلام

كان أحد أهداف فريق التعرف التلقائي على الكلام هو توفير مخرجات متسقة. ونظراً لغياب قواعد كتابة موحدة للكلمات الدخيلة على اللغة من اللهجات العربية واللغات الأجنبية، فقد قرروا تمثيل الكلمات الدخيلة -مثل أسماء الموسيقيين والألبومات الغنائية الفرنسية أو الأميركية- باستخدام النص اللاتيني. ولتحقيق هذا الهدف، استخدموا طريقة تعتمد على استيعاب فهرس للمصطلحات باللغتين الفرنسية والإنجليزية، وتحويل مخرجات النص العربي المقابلة في نموذج التعرف التلقائي على الكلام إلى نص لاتيني.

بدأ مدير العلوم التطبيقية فولكر لوتنان وزملاؤه في الفريق (بما فيهم العاِلمان التطبيقيان محمد حثناوي وبشار عواد شيخ حسن) بنموذج صوتي إنجليزي ظهر أنه يتلاءم مع أصوات الكلام البشري بشكل أفضل من نموذج تمت تهيئته بصورة عشوائية. ثم قاموا بتدريبه باستخدام مجموعات بيانات عامة للكلام العربي باللهجات الخليجية المستهدفة. بالإضافة إلى ذلك، لجؤوا إلى استخدام بيانات من كليو (Cleo)، وهي إحدى مهارات أليكسا التي تتيح للعملاء متعددي اللغات المساعدة في تدريب النماذج اللغوية الجديدة. وقد تضمنت بيانات "كليو" ألفاظاً موسومة بلهجات عربية أخرى، للسماح لنموذج التعرف التلقائي على الكلام بتوفير تجربة مستخدم أكثر توافقاً مع مجموعة أكبر من العملاء.

فهم اللغة الطبيعية

يأخذ نموذج فهم اللغة الطبيعية الألفاظ التي حوّلها نموذج التعرف التلقائي على الكلام إلى نص، ويصنفها وفقاً للقصد منها، مثل "تشغيل الموسيقى". كما يحدد جميع الخانات الموجودة في الألفاظ (مثل أسماء الأغاني أو أسماء الفنانين) والقيم الخاصة بهذه الخانات (مثل اسم فنان معين).

أول شيء يحتاجه نموذج فهم اللغة الطبيعية هو ترميز المدخلات، أو تقسيمها إلى وحدات دلالية يجب معالجتها بشكل منفصل. في العديد من اللغات، تحدث عملية الترميز هذه بشكل طبيعي أثناء مرحلة التعرف التلقائي على الكلام، لكن هذا الأمر لا يحدث في اللغة العربية لأنها تستخدم اللواصق (affixes) -السوابق (prefixes) واللواحق (suffixes)- لتوصيل المعاني السياقية. لذلك، صممت مهندسة اللغة يانغسوك بارك وزملاؤها أداة ترميز لفصل اللواصق المهمة وترك الباقي مرتبطاً بأصل الكلمة.

تمر المدخلات المرمّزة بعد ذلك إلى نموذج فهم اللغة الطبيعية؛ وهو نموذج ثلاثي اللغات قادر على معالجة المدخلات باللغات العربية أو الفرنسية أو الإنجليزية. لا يساعد هذا الأمر النموذج في التعامل مع الكلمات الدخيلة المستخدمة في اللغة العربية فحسب، لكنه يتيح أيضاً نقل المعارف من الفرنسية والإنجليزية، اللتين تحتويان حالياً على بيانات تدريب أكثر وفرة من اللغة العربية.

بدأت عملية التدريب باستخدام نموذج لغوي قائم على نموذج التعلم الآلي مفتوح المصدر بيرت (BERT)، والذي تم اختباره مسبقاً على جميع اللغات الثلاث باستخدام بيانات غير موسومة، والهدف المعياري من النمذجة اللغوية (الذي يتمثل في إخفاء كلمات من الجمل بشكل عشوائي، وتعليم النموذج التنبؤ بالكلمات المفقودة من الكلمات المتبقية). وفي هذه المرحلة، عزز فريق "فهم اللغة الطبيعية" مجموعة البيانات العربية ببيانات مترجمة من اللغة الإنجليزية بواسطة خدمة ترجمة أمازون السحابية (AWS Translate).

بعد ذلك، قام الباحثون بتدريب النموذج على أداء مهام "فهم اللغة الطبيعية" من خلال ضبطه بدقة على مجموعة كبيرة من البيانات الفرنسية والإنجليزية المشروحة (أي الكلمات التي تم وسم خاناتها ومقاصدها). الفكرة هي استخدام البيانات الوفيرة المتاحة بهاتين اللغتين لتعليم النموذج بعض المبادئ العامة لعمليات معالجة "فهم اللغة الطبيعية"، والتي يمكن بعد ذلك نقلها إلى نموذج مضبوط على البيانات العربية الموسومة الأكثر ندرة. وأخيراً، تم ضبط النموذج مرة أخرى بدقة على كميات متساوية من بيانات التدريب الموسومة باللغات الثلاث، لضمان أن الضبط الدقيق للغة العربية لم يقلل من أداء النموذج في اللغتين الأخريين.

تحويل النص إلى كلام

في حين أن علامات التشكيل يمكن أن تقف في طريق "فهم اللغة الطبيعية"، فإنه لا يمكن الاستغناء عنها في مرحلة تحويل النص إلى كلام. تحتاج أداة تركيب الكلام في أليكسا إلى معرفة أصوات حروف العلة بدقة لإنتاجها كمخرجات. لذلك عندما يحصل نموذج "تحويل النص إلى كلام" العربي على نص من إحدى وظائف أليكسا، فإنه يمررها من خلال أداة تشكيل، والتي تضيف المجموعة الكاملة من علامات التشكيل مرة أخرى.

قام باحثو "تحويل النص إلى كلام"، بقيادة مهندس البرمجيات طارق بدر والعالم التطبيقي فان يانغ، بتدريب أداة التشكيل عموماً على نصوص باللغة العربية الفصحى، مع بعض البيانات التكميلية باللهجات الخليجية التي جمعها فريق أليكسا بنفسه. ويعتمد استنتاج علامات التشكيل الصحيحة على سياق الكلام بالكامل.

ثم تمر المخرجات التي يجب أن تصدر باللهجات الخليجية من خلال وحدة تحول علامات التشكيل إلى تمثيلات لأصوات حروف العلة القصيرة المناسبة، إلى جانب أي عمليات تحويل أخرى ضرورية. وهذا النظام القائم على القواعد أنشأه مهندس اللغة مروان بن حسين وزملاؤه، لاستخلاص العلاقات التي يمكن التنبؤ بها بين اللغة العربية الفصحى واللهجات الخليجية.

بعد هذه الرحلة الشاقة التي خاضتها أليكسا لتتعلم اللغة العربية، توضح نور طاهر أن الأمر يتجاوز بناء وتطوير قدراتها على فهم اللغة واللهجات والتجاوب معها، ليشمل فهم النوع الصحيح من المحتوى لما يجب أن تقوله، وكيفية قوله، ومتى يقال، ولأي غرض.