تقرير خاص

كيف واجه تطبيق صوتِك لتحويل الكلام الصوتي إلى نص منسَّق تحديات اللغة العربية؟

6 دقيقة
كيف واجه تطبيق صوتِك لتحويل الكلام الصوتي إلى نص منسَّق تحديات اللغة العربية؟
حقوق الصورة: الهيئة السعودية للبيانات والذكاء الاصطناعي (سدايا)

حينما يفكر أحدهم بالسفر إلى بلد ما، فإن أول ما يشغل باله هو كيفية التواصل مع سكان البلد، كحاجة إنسانية أساسية للتعايش. فعلى مدار التاريخ، وجد كل مجموعة من البشر طريقة للعيش مع بعضهم تُدعى "اللغة"، ليصل عدد اللغات حول العالم إلى أكثر من 6500 لغة

الأمر نفسه لا بُدّ أن يحدث مع الأدوات التكنولوجية المتاحة بين أيدي البشر، إذ يبحث الفرد عن اللغة الأسهل له في التعامل مع التقنيات الحديثة، ولكن في الأغلب لا يجد سوى لغات معدودة يضطر إلى التكيّف معها، أو تعلُم القليل عنها.

في عصر سريع التطور كالذي نعيشه، يحاول المبتكرون تقديم حلول تكنولوجية تُسهّل حياة البشر وطريقة تواصلهم، مثل تطبيقات التراسل النصي، ثم إتاحة أدوات تُتيح التواصل الصوتي "Voice Notes"، وها نحن نستعد لاستقبال أجهزة إلكترونية بدون لوحات مفاتيح وفأرة وأدوات واجهة المستخدم المعتادة للاعتماد على التواصل الشفهي السلس، خاصة مع تزايد انتشار تقنية التعرف التلقائي على الكلام (Automatic Speech Recognition)، والتي تُمكّن الأجهزة الإلكترونية من تحويل الكلمات المنطوقة إلى نصٍّ مكتوب، ليستخدمها البشر في عمليات التواصل والبحث وحتى الشراء، ولكن تظل أزمة اللغة عائقاً أمام استمتاع المستخدمين بهذه التقنية.

تدعم التقنية لغات مثل الإنجليزية والألمانية والفرنسية، وعلى الرغم من ذلك، يجد المتحدثون بهذه اللغات بعض الصعوبات في التفاعل مع التقنيات، ولا سيّما التقنيات المعتمدة على مساعد الصوت مثل أليكسا وسيري، بسبب تفسيره الخاطئ للكلمات أو عدم فهمه للجمل كاملةً. فعلى سبيل المثال، فسّر سيري اسم شركة "IVANNOVATION" بـ 13 معنى مختلفاً، واختار أن يتوقف عن السمع بعد كلمة معينة عندما أخبره الكاتب هنا: "مرحباً سيري، ذكرني بالاتصال بهذا الشخص يوم الاثنين 9 على مدار الساعة"، فتوقف عن الاستماع بعد كلمة "شخص" ليذكره في وقت خاطئ تماماً.

يصبح الأمر أسوأ بالنسبة للغات واللهجات الأقل دعماً، مثل اللغة العربية، إذ يقدم نتائج غير صحيحة، ما يجعل التكنولوجيا غير موثوقة بالنسبة للمتحدثين بهذه اللغات، وبالتالي لا يستخدمونها.

تملك اللغة العربية تحديات خاصة بها، وأبرزها تعدد اللهجات المحلية، فهناك أشكال متعددة للغة العربية مثل فصحى التراث، وهي اللغة المستخدمة في النصوص التاريخية، والفصحى المعاصرة، وهي اللغة الرسمية في الدول العربية والمستخدمة في الصحف ووسائل الإعلام، واللهجات العامية، المستخدمة خلال الأحاديث اليومية بين الناس، والتي تصل إلى 28 لهجة رئيسية، مثل الخليجية، والمصرية، والمغربية.

هناك عدد من المحاولات التي قامت بها شركات التقنية الكبرى لتطوير مساعد صوت يفهم العربية مثل أمازون، الذي كان التحدي الأبرز بالنسبة لها هو تعدد اللهجات. ويكمن الحل الذي يضمن تقديم تكنولوجيا موثوق بها للمتحدثين العرب في مراعاة اللهجات العربية. 

التجربة السعودية في التركيز على تقنيات باللغة العربية

تولي المملكة العربية السعودية اهتماماً خاصاً بتقديم تكنولوجيا تعزز الحفاظ على اللغة العربية وتراعي في الوقت نفسه المستخدمين الذين يتحدثون العربية، وذلك لعدة اعتبارات:

  • اهتمام القيادة السعودية بالحفاظ على اللغة العربية بوصفها لغة القرآن الكريم، وحقيقة أن المملكة قبلة المسلمين باحتضانها الكعبة الشريفة.
  • يزور ملايين المسلمين المملكة كل عام لأداء مناسك الحج والعمرة، وتسعى السعودية إلى تيسير الحج لهم وتقديم أفضل الخدمات لهم.
  • تنوع اللهجات العربية في السعودية.
  • تحتل فئة الشباب المتعلمين الصدارة في التقديرات السكانية السعودية، وهي الفئة الأكثر استهلاكاً للتكنولوجيا.
  • أغلب الأدوات والتطبيقات التكنولوجية المتاحة تستخدم لغات أجنبية أبرزها الإنجليزية، ما يضطر المستخدمين العرب، وأبرزهم الشباب، إلى التناوب اللغوي للتكيّف مع هذه الأدوات (ظاهرة تحدث عندما يغيّر المتحدث طريقة حديثه لمجاراة من يتحدث معه، وتحدث في الأساس داخل المجتمعات الثنائية اللغة والمتعددة اللغات)، ما يؤثّر في الثقافة الأصلية والهوية العربية.
  • تطمح المملكة إلى تحسين جودة الحياة للسعوديين، ويظهر ذلك في رؤية السعودية 2030، وتوفر إتاحة التقنيات بشكل سلس ميزة تيسر حياة الأفراد.
  • تسعى السعودية إلى احتضان مدن ذكية، خاصة مع اكتمال مشروع نيوم، ويلعب توفير التقنيات دوراً كبيراً في تعزيز هذه المدن.

التجربة السعودية في تطوير تقنيات اللغة العربية

تتبع المملكة العربية السعودية نهجاً ملهماً لتحفيز بناء الاقتصاد المعرفي على تبني الاستراتيجيات الوطنية، اتبعته في تطوير تقنيات الذكاء الاصطناعي للغة العربية، يبدأ بتحمل التكاليف الأولية للمبادرات ورفع توقعات المستهلكين، ما يؤدي إلى خلق طلب اقتصادي يدفع الشركات إلى البدء، ولنأخذ مثالاً على ذلك خدمات الحكومة الإلكترونية السعودية.

فقد جاءت المملكة ضمن أفضل عشر دول على مستوى الخدمات الحكومية الرقمية التي تلبي المعايير العالية لمواطني المملكة والمقيمين فيها، وفقاً لتقرير لبوسطن كونسلتينغ غروب، والذي أوضح أن ازدياد اعتماد الخدمات الحكومية الرقمية الناشئة أسهم في الارتقاء بمكانة السعودية عبر هذا المجال.

أسهمت المبادرات الوطنية في إحداث تحول سريع وكامل في التفاعلات والخدمات الحكومية، فنجد أن السعوديين قد تبنوا الخدمات الإلكترونية قبل وقت طويل من العديد من الدول المتقدمة، ما رفع توقعات المستهلكين ودفع الشركات إلى تقديم الخدمات الإلكترونية هي الأخرى. 

وقد رأينا كيف آتى هذا التحول الرقمي ثماره خلال عمليات الإغلاق الوبائي لكوفيد-19، حيث تمكنت السعودية من استخدام البنية التحتية والنظام البيئي لمواصلة العمل بأقل قدر من التعطيل، واحتلت المرتبة الأولى عالمياً في استجابة الحكومة للجائحة، وفقاً لتقرير المرصد العالمي لريادة الأعمال (GEM) لعام 2020-2021.

هذا النهج الملهم هو ذاته الذي تتبعه الهيئة السعودية للبيانات والذكاء الاصطناعي سدايا (SDAIA) للعمل على تطوير تقنيات الذكاء الاصطناعي لخدمة اللغة العربية. فعلى سبيل المثال، تعد سدايا معجماً للبيانات والذكاء الاصطناعي بالتعاون مع مجمع الملك سلمان العالمي للغة العربية؛ لجمع أهم المصطلحات التقنية المتعلقة بالبيانات والذكاء الاصطناعي، ووضع تعريفات مختصرة ميسَّرة لها باللغة العربية والإنجليزية، كما نشرت مجموعة من التقارير والدراسات المعرفية باللغة العربية؛ لتثقيف المجتمع بمفاهيم البيانات والذكاء الاصطناعي وتطبيقاتها المتنوعة، وإثراء المحتوى العربي بإصدارات نوعية.

إذ تتجنب شركات التقنية الكبرى وضع استثماراتها في هذه المنطقة لأنها جديدة نسبياً وبالتالي معدل مخاطر أعلى، إضافة إلى أن عوائدها طويلة المدى عكس مجالات أخرى تدر أرباحاً سريعة، وهنا يأتي دور النهج الذي تتبعه الهيئة السعودية للبيانات والذكاء الاصطناعي، إذ تسعى لخلق بيئة استثمار جذابة عبر توفير البيانات المطلوبة، وتنمية مهارات القوى العاملة لتطوير تقنيات اللغة واعتمادها.

تطبيق صوتِك: ثمرة هذه الاستراتيجية

ينمو العديد من القطاعات المرتبطة بالتقنية في السعودية بشكل متزايد خاصة أنها، كدولة نامية، تتبنى التقنيات بشكل سريع. ومن هذه القطاعات، قطاع دعم العملاء، والذي تلعب تقنيات لغة الذكاء الاصطناعي فيه دوراً كبيراً، خاصة تقنية التعرف على الكلام.

ويقضي الأشخاص في هذه القطاعات من 50% إلى 80% من يوم العمل في التواصل، وثلثا ذلك في الحديث، ما يظهر أهمية تقنيات التعرف على الكلام باللغة العربية لتسهيل مهام هؤلاء الأشخاص وزيادة فاعليتها.

وهنا يظهر تطبيق صوتِك (SauTech) لتحويل الكلام باللغة العربية إلى نص مكتوب، والذي طوّرته مؤخراً، الهيئة السعودية للبيانات والذكاء الاصطناعي (SDAIA) والمركز الوطني للذكاء الاصطناعي (NCAI) بالتعاون مع الشركة السعودية للذكاء الاصطناعي (SCAI).

يدعم تطبيق صوتِك، المدفوع بحلول الذكاء الاصطناعي تنسيقات وقنوات صوتية مختلفة لتمكين تحويل الكلام إلى نص في الوقت الفعلي عبر أشكال مختلفة من اللغة العربية، وهي الفصحى، وبعض اللهجات السعودية مثل النجدية، والحجازية، والشمالية، والشرقية، والجنوبية، بالإضافة إلى تدريب النموذج على لهجات عربية أخرى مثل المصرية والخليجية.

وتعتمد هذه التقنية، كغيرها من التقنيات، على مدخلات (الموارد اللغوية) لتتمكن من إنتاج المخرجات (النص المكتوب) بناءً على آلاف النماذج التي تحللها خوارزميات الذكاء الاصطناعي. وفي حين يتوافر كمٌّ هائل من الموارد في اللغة الإنجليزية، تعد اللغة العربية من اللغات الفقيرة نسبياً بالموارد الموسومة الضرورية في تدريب نماذج الذكاء الاصطناعي.

أدرك المركز الوطني للذكاء الاصطناعي في سدايا منذ بداية عام 2020، هذه المعضلة، ما دفعه إلى إنتاج مجموعة شاملة من البيانات الصوتية باللغة العربية، هي الأكبر من نوعها، معتمداً في مهمته تلك على جمع آلاف الساعات من البيانات الصوتية، ثم اختيار الملفات الصوتية المناسبة لضمان التنوع في اللهجات والبيئات، ومن ثم تفريغ الملفات الصوتية واستخدامها للتدريب.

ومن أجل تشجيع البحث والتطوير في تحسين تقنيات التفريغ الآلي للغة العربية، تعاون المركز مع هيئة الإذاعة والتلفزيون السعودية بنشر مجموعة بيانات "صدى"، والتي تحتوي تقريباً على 667 ساعة صوتية باللغة العربية مع تفريغها النصي. وتتجاوز البيانات الموجودة 600 ساعة من أكثر من 80 برنامجاً ومسلسلاً تلفزيونياً وفرتها هيئة الإذاعة والتلفزيون باللغة العربية بمختلف اللهجات المحلية، وفرّغها المركز الوطني للذكاء الاصطناعي في سدايا وجهزها للتدريب والمعالجة الآلية مع تحديد 50 ساعة متوازنة بين الجنسين للاختبار والتحقق.

تطبيقات نموذج التعرف التلقائي على الكلام "صوتِك"

استطاعت تقنية  (ASR) إدخال الكثير من التغييرات على عدة قطاعات، بدءاً من التأثير في حياتنا اليومية، وتسهيل طريقة عملنا، وحتى تغيير شكل قطاعات مثل خدمة العملاء، والاتصالات، والتسويق، والبنوك، والرعاية الصحية، وغيرها. فعلى سبيل المثال، أعلن نموذج صوتِك عن عدة تطبيقات له، وحالات الاستخدام الفعّالة له، كالتالي:

إدارة مركز الاتصال وخدمة العملاء

تهتم إدارات مراكز الاتصال بالإشراف على تفاعل العملاء مع الشركة ككل، وتشمل مهامها التنبؤ بالقوى العاملة، وإدارة الوقت، وتمكين الموظفين وتطويرهم، وإعداد التقارير وتفاعلات العملاء. إذ تُمكّن إدارة مراكز الاتصال الفعّالة الشركات من تحسين رضا العملاء، ونمو الإيرادات، وتطوير الموظفين المشاركين.

ولكن هناك تحديات تواجه هذه الإدارة مثل استقبال آلاف الساعات من التسجيلات الصوتية للمكالمات يومياً، ويندرج تحته  صعوبات مثل استخلاص المشكلات الرئيسية المتكررة بين العملاء وتحليل كل مكالمة عميل على نطاق واسع، وصعوبة قياس جودة المكالمة، وكذلك صعوبة قياس جودة أداء موظف مركز الاتصال ذاته، علاوة على أن الموظف عادة ما يُعد فقط ملخصاً لمكالمة العميل التي تستغرق بدورها وقتاً طويلاً. 

وهنا، يأتي دور تطبيق صوتِك، الذي تشمل مهامه مراقبة تفاعلات دعم العملاء، وتحليل جهات الاتصال الأولية لحل المشكلات بسرعة أكبر، وتحسين تدريب الموظفين. وقد وجد بحث أجرته شركة ماكنزي (McKinsey) أن الشركات التي طبقت مثل هذه التحليلات المتقدمة استطاعت تقليل متوسط ​​وقت المعالجة بنسبة تصل إلى 40%، وخفض تكاليف الموظفين بما يصل إلى 5 ملايين دولار، مع تحسين رضا العملاء ومشاركة الموظفين.

صناعة المحتوى 

تتطلب صناعة الإعلام والترفيه تقنيات متقدمة لنسخ المحتوى بلغات مختلفة لتلبية احتياجات الجماهير الإقليمية. وقد ظهرت واجهات برمجة التطبيقات (APIs) لتحويل الكلام إلى نص كطريقة فعّالة من حيث التكلفة لتحويل المحتوى إلى تنسيقات نصية لتسهيل فهم الجمهور. إذ يتطلب كتابة المحتوى يدوياً إلى الكثير من الوقت.

من المتوقع أن يقود تطبيق صوتِك والتطبيقات المماثلة التي تفعّل تقنية التعرف التلقائي على الكلام في اللغة العربية إلى طفرة في القطاعات السابقة الذكر، وسيسهّل الكثير من المهام التي كان البشر يضطرون إلى القيام بها يدوياً.

المحتوى محمي