ما هو التعرف التلقائي على الكلام؟
هو التقنية التي تُمكن الأجهزة الإلكترونية والأنظمة الحاسوبية من فهم الكلمات المنطوقة والاستجابة إلى الأوامر الصوتية؛ وبالنتيجة تسمح للبشر بالتفاعل مع تلك الأنظمة باستخدام أصواتهم. تعتمد الإصدارات المتقدمة من التقنية على حقل فرعي من الذكاء الاصطناعي يعرف باسم معالجة اللغة الطبيعية، حيث يتم تحويل الكلام إلى نص ثمّ معالجته وتحليله لفهم الغرض منه. يستخدم التعرف التلقائي على الكلام في العديد من المجالات أهمها المساعدات الصوتية مثل سيري وأليكسا وجوجل هوم .
كيف يعمل التعرف التلقائي على الكلام؟
تعمل جميع برمجيات التعرف التلقائي على الكلام وفق مجموعة من الخطوات المتشابهة نوعاً ما، وهي:
- التقاط الكلام بواسطة الميكروفون، وتحويل الإشارات التماثلية إلى إشارات رقمية مخزنة في ملف رقمي.
- إجراء عمليات معالجة أولية للملف مثل إزالة ضجيج الخلفية باستخدام المرشحات الصوتية.
- تجزئة شكل الموجة الصوتية إلى أجزاء صغيرة تعرف باسم الوحدات الصوتية (Phonemes)، وهي الوحدات الأساسية التي تشكل أصوات الأحرف في اللغة، وعددها في اللغة الإنجليزية مثلاً 44 وحدة.
- يتم تحليل الوحدات الصوتية وفق تسلسل محدد ابتداءاً من أول وحدة، وهنا تُستخدم تقنية التحليل الإحصائي للاحتمالات بهدف استنتاج كلمات كاملة ثم جمل كاملة.
- بعد التعرف على الكلمات أو الجمل تتم معالجتها بالطرق المختلفة لفهم معناها والاستجابة لها بالطريقة المناسبة.