لطالما كانت فكرة المساعد الافتراضي الصوتي الذكي الشبيه بالإنسان موضوع الكثير من أفلام الخيال التي حاولت بكل جهدها إضافة لمسة بشرية عليها وتحسين قدرتها على فهم لغة الإنسان بمجرد التحدث إليه. والآن بعد أكثر من عقد من الزمن، تحول الخيال العلمي إلى واقع، حيث أصبحت المساعِدات الصوتية الافتراضية الذكية عموماً والمدعومة بالذكاء الاصطناعي التوليدي خصوصاً أكثر ارتباطاً بالمستخدم في حياته اليومية.
ولكن مع تركيز الشركات على تطوير مساعِدات صوتية افتراضية يمكنها القيام بكل شيء تقريباً نيابة عن المستخدم؛ من الحصول على اتجاهات القيادة ومعرفة أحوال الطقس مروراً بقراءة نشرة الأخبار وإنشاء قوائم البقالة وليس انتهاءً بتنظيم رسائل البريد الإلكتروني واقتراح أفضل الوصفات الغذائية، لا تزال تعاني بشدة فهم بعض ما ينطق به المستخدم.
حيث أظهر الباحثون في اللغويات وعلوم الكمبيوتر أن أنظمة المساعِدات الصوتية تعمل بشكلٍ أسوأ وتميلُ إلى ارتكاب المزيد من الأخطاء عند مخاطبتها بلهجاتٍ مختلفة، مثل لهجة محلية أو عند التحدث باللغة الإنجليزية العامية الأميركية الإفريقية، أو حتى في حالة كان المتحدث امرأة أو رجلاً كبيراً في السن، والأسوأ إذا كان المتحدث لديه إعاقة في الكلام.
اقرأ أيضاً: سوزان بينيت: الصوت البشري الذي يقف وراء المساعد الصوتي سيري
المساعِدات الصوتية الذكية مدرّبة مسبقاً لتكون مثل البشر
على عكس التحدث بين الأفراد البشر، فإن أنظمة التعرّف التلقائي على الكلام (ASR) لا عواطف لها عند الاستماع إليك، فبدلاً من محاولة فهمك من خلال أخذ أدلة مفيدة أخرى عند التحدث معها مثل معرفة شعور المتحدث من نبرة صوته، تُكافح في فهم بعض الأوامر وتميلُ غالباً إلى تفسيرها بحسب البيانات التي دُرِّبت عليها سابقاً، وهي خطوة يمكن أن تؤدي أحياناً إلى خطأ في إجاباتها عن الاستفسارات المقدمة إليها.
فنظراً إلى أن الشركات أصبحت أكثر توجهاً في استخدام أدوات التعرّف التلقائي على الكلام في عملياتها التشغيلية، مثل خدمات العملاء من أجل خفض التكاليف، فإن الأشخاص ليس لديهم خيار سوى التفاعل معها، ولكن كلما دخلت هذه الأنظمة حيز الاستخدام في المجالات الحرجة والحساسة مثل نداءات الطوارئ والرعاية الصحية والتعليم ووكالات إنفاذ القانون، زادت احتمالية حدوث عواقب وخيمة عندما تفشل في التعرّف إلى ما يقوله الشخص.
على سبيل المثال ،إذا تعرضت للأذى في حادث سيارة، فإن أول ما سيفعله المساعِد هو الاتصال برقم الطوارئ لطلب المساعدة، ولكن بدلاً من التواصل مع مستجيب بشري قد يجيب عنه صوت آلي مُدّرب مسبقاً على سيناريوهات محددة، وعندها من المتوقع أن يجد معاناة كبيرة في شرح مشكلته، وقد يستغرق الأمر عدة محاولات حتى يُفهم بشكلٍ جيد، ما يضيع الوقت.
ما الذي يسبب حدوث هذا النوع من الخطأ؟
أولاً لفهم الأمر، فإن المساعِدات الصوتية هي عبارة عن أنظمة ذكية تعمل على فهم اللغة البشرية وتقليدها من خلال تدريبها على كميات هائلة من الملفات النصية والصوتية التي تحتوي على كلام بشري حقيقي بشكلٍ مسبق، لذا إذا سجّل النظام معدلات دقة عالية في فهم لهجة معينة أو لغة محددة، فمن المنطقي تخمين أن تدريبه احتوى على الكثير من بيانات التدريب للأشخاص الذين يتحدثون هذه اللهجة أو اللغة.
ومع ذلك من خلال تدريبها على بيانات تدريب عالية الجودة من مجموعة متنوعة من المصادر، يمكن للمطورين تقليل هذه الأخطاء. ولكن بناء أنظمة مساعِدات صوتية يمكنها فهم الاختلافات اللانهائية في الكلام البشري الناشئة عن أشياء مثل الجنس والعمر والعرق واللغة الأولى مقابل اللغة الثانية والحالة الاجتماعية والاقتصادية والقدرة وغيرها، فإن هذا يتطلب موارد ووقتاً كبيراً.
على سبيل المثال، بالنسبة للأشخاص الذين لا يتحدثون الإنجليزية ويمثّلون نحو 75% من سكان العالم، فإن التحديات أكبر، حيث طُوِّرت معظم المساعِدات الصوتية الذكية وأفضلها للتحدث باللغة الإنجليزية، وهي تعمل بشكلٍ أفضل بكثير باللغة الإنجليزية من أي لغة أخرى، وهذا ما يجعل ملايين الأشخاص الذين يتحدثون لغات رسمية أخرى غير الإنجليزية معزولون عن العديد من التقنيات التي تعتمد على الكلام.
اقرأ أيضاً: هل تتحقق رؤية أمازون في تشغيل عدة مساعدات صوتية على نفس الجهاز؟
لماذا ترتبك المساعِدات الصوتية الذكية في فهم بعض الكلمات دوناً عن غيرها؟
وفقاً لتقرير اعتماد مستهلك السماعات الذكية الأميركية لعام 2022، فإن المستخدمين أصبحوا أكثر اعتماداً على تقنية الصوت في مجموعة واسعة من المهام، ولكن في الوقت نفسه يُسلّط التقرير الضوء أيضاً على أن المستخدمين يعانون في كثيرٍ من الأحيان الإحباط من المساعدِات الصوتية، لا سيما عندما يتعلق الأمر بفهم الأوامر أو اللهجات المعقدة.
وهو ما يؤكده استطلاع تطبيقات الذكاء الاصطناعي والتطبيقات الصوتية لعام 2023 (Artificial intelligence and Voice Applications 2023) الذي أجرته شركة الاختبار والجودة الرقمية أبلوس (Applause)، حيث وجد أن 30% من المستخدمين إمّا غير راضين إلى حد ما أو غير راضين للغاية عن المساعِدات الصوتية، فعندما سُئلوا عن مشاعرهم العامة تجاه المساعِدات الصوتية كانت الإجابة الأكثر شيوعاً هي: "سأستخدم المساعد الصوتي أكثر إذا استجاب بشكلٍ أكثر دقة للطريقة التي أقوم بها بصياغة الأشياء"، ومع ذلك فإن عدم فهم المساعِدات الصوتية الأوامر الصوتية في بعض الأحيان يعود إلى العديد من الأسباب من ضمنها:
تحديات فهم اللغة الطبيعية (NLU)
- عندما تُدرّب المساعِدات الصوتية عبر مجالات متعددة فقد تُسيء تفسير الأوامر بسبب المعاني المتداخلة أو التدريب غير الكافي في مجالات معينة.
- يمكن للجمل الطويلة أو المعقدة أو المتداخلة أن تطغى على قدرة المساعِد الصوتي على تحليل المعنى، ما يؤدي إلى استجابات جزئية أو غير صحيحة.
القيود في تقنية التعرّف على الكلام
- تعتمد المساعِدات الصوتية على تكنولوجيا تحويل الكلام إلى نص (STT) ومطابقتها مع الأوامر أو الاستعلامات المحددة مسبقاً، لذا إذا لم تتطابق المدخلات المنطوقة تماماً أو كانت غامضة فقد يفشل النظام في تفسيرها بشكلٍ صحيح.
- في بعض الأحيان يصعب على النظام معالجة الكلمات النادرة أو الخاصة بمجال معين بدقة مثل المصطلحات الطبية أو القانونية أو غير الموجودة في مفرداته.
- يمكن أن تؤدي الاختلافات في اللهجات أو النطق الخاطئ إلى أخطاء التعرف إلى الأوامر مثل الإعلان السابق لشركة هيونداي.
- تكافح المساعِدات الصوتية مع القرائن السياقية والعبارات الدقيقة، ما قد يسبب ارتباكاً عند تفسير الاستعلامات المعقدة أو غير المباشرة.
سلوك المستخدم
- غالباً ما يتوقف المستخدمون في منتصف الجملة أو يكررون الكلمات عند صياغة الاستعلامات، ما قد يجعل المساعِد الصوتي يرتبك في تفسير هذه التوقفات على أنها نهاية الاستعلام.
- قد يؤدي استخدام عبارات أقل شيوعاً أو عبارات غير مألوفة لبيانات تدريب المساعد الصوتي أيضاً إلى حدوث أخطاء في تفسير الأسئلة الموجّهة إليه.
- يؤدى استخدام المساعِد عند وجود ضوضاء في الخلفية مثل الموسيقى إلى عدم فهم الأوامر بشكلٍ دقيق، ما قد يولّد استجابات خاطئة.
كيف يمكن معالجة تحديات فهم المساعِدات الصوتية للهجات المختلفة؟
تتطلب معالجة تحديات فهم المساعِدات الصوتية للهجات المختلفة نهجاً متعددَ الأوجه يجمع بين التطورات في الذكاء الاصطناعي وجمع البيانات المتنوعة والتقنيات المخصصة. ومن ضمن الحلول التي يمكن تطبيقها:
- تدريبها على مجموعات بيانات متنوعة تتضمن لهجات مختلفة وأجناس وأعمار وأنماط تُحدَّث باستمرار.
- بناء الشركات المطورة لشراكات متخصصة مع اللغويين والمجتمعات المحلية لجمع عينات الكلام للغات واللهجات غير المعروفة لدمجها في بيانات التدريب.
- تدريب نماذج خاصة بالمناطق التي لا يتحدث أغلب سكانها اللغة الإنجليزية تأخذ في الاعتبار الفروق الدقيقة واللهجات المحلية مثل الإنجليزية الهندية أو العربية الخليجية أو العربية المغاربية.
- استخدام أنظمة تحويل النص إلى كلام (TTS) التي تتكيف مع خصائص الصوت الفردية لتحسين التخصيص.
- استخدام تقنيات التعلم العميق مثل البنيات القائمة على المحولات مثل بيرت (BERT) أو الشبكات العصبونية المتكررة (RNNs) للكشف الدقيق عن اللغة وتكيفها.
- التدقيق المستمر على بيانات التدريب بحثاً عن التحيزات من خلال اختبارها ضد مجموعة واسعة من اللهجات.
- السماح للمستخدمين بتقديم تصحيحات أو ردود فعل على التفسيرات الخاطئة، ما يُتيح تحسينات متكررة في دقة التعرف بمرور الوقت.