سيري: صوت بشري يخفي نظام ذكاء اصطناعي معقد

3 دقائق

هل تساءلت ذات مرة كيف يستطيع نظام سيري التعرف على الكلمات والتركيبات اللغوية المعقدة وتحويلها إلى أوامر قابلة للتنفيذ في أجزاء من الثانية؟ وكيف يتمكن من فهم لغات ولهجات أشخاص من مختلف أنحاء العالم؟ في هذا التقرير نلقي نظرة على التكنولوجيا المذهلة التي تقف وراء عمل هذا المساعد الشخصي الذكي.

لا شك أن جميع مستخدمي منتجات شركات آبل جربوا التحدث مع "سيري"، المساعد الشخصي الافتراضي الذي تعتمد عليه الشركة الأميركية. وربما اعتاد الكثير من هؤلاء المستخدمين على الردود الذكية التي تصدر من سيري للإشارة مثلاً إلى تنفيذ أمر ضبط المنبه على توقيت محدد أو البحث عن معلومة على الإنترنت. لكن ما لا يعرفه الكثيرون أن هذا الصوت البشري الودود يُخفي وراءه نظامَ ذكاء اصطناعي بالغ التعقيد والتطور، وعالماً من الخوارزميات وتقنيات التعلم الآلي التي تطلبت سنوات من التدريب وكمياتٍ ضخمةً من البيانات.

تطور تدريجي
قصة سيري بدأت في معهد ستانفورد الدولي للأبحاث، الذي يقع في ولاية كاليفورنيا الأميركية، والذي طور تلك التكنولوجيا عام 2007 اعتماداً على عقود من الأبحاث في مجال الذكاء الاصطناعي، من خلال عدة مشروعات بحثية، هي مشروع المساعد المعرفي الذي يتعلم وينظم (CALO)، وبرنامج المساعد الشخصي الذي يتعلم (PAL) التابع لوكالة مشاريع البحوث المتطورة الدفاعية الأميركية (داربا)، والذي كان أكبر مشروع للذكاء الاصطناعي في تاريخ الولايات المتحدة، بالاشتراك مع المعهد السويسري للتكنولوجيا (EPFL). وأُطلق سيري كتطبيق مستقل على متجر شركة آبل عام 2010، وبعد شهرين فقط استحوذت آبل على التطبيق، واستخدمته بدءاً من عام 2011 في هاتف 4s  -الذي حمل اسم S كرمز لسيري- ليصبح خلال السنوات التالية السمة المميزة لكل منتجات الشركة.

الوسيلة الأساسية التي يقوم عليها سيري -كغيره من المساعدين الشخصيين المنافسين- هي استخدام كلمة مفتاحية -أو الضغط على زر مخصص- عندما يسمعها المساعد ينشط ويعتبر أن ما يليها هي استعلامات أو أوامر موجهة له. وفي حالة سيري فإن الكلمة هي "يا سيري Hey Siri". هنا يسجل المساعد الافتراضي أوامر المستخدم ويقرر ما إذا كان يمكن معالجتها داخل الجهاز، أم إرسالها إلى خوادم الشركة التي تستخدم خوارزميات متخصصة تحلل الأوامر وتنفّذها، سواء كانت تلك الأوامر الاتصال بشخص أو البحث عن معلومة أو الرد على سؤال.

العلم وراء سيري
لتحقيق هذا الأمر يحتاج سيري إلى استخدام ما يعرف بـ "معالجة اللغة الطبيعية" Natural Language Processing، وهي أحد فروع الذكاء الاصطناعي، يجمع بين علوم الكمبيوتر وعلم اللغويات، بحيث تتمكن الخوارزميات التي تستخدمها شركة آبل من فهم اللغة بنفس الطريقة التي يفهمها بها الشخص الحقيقي.

يأتي بعد ذلك دور تقنيات التعلم الآلي، بما فيها تقنية الشبكة العصبونية العميقة (DNN)، حيث اعتمدت شركة آبل على تدريب نماذج التعلم الآلي على مجموعات كبيرة من البيانات المتنوعة، التي تضم عينات صوتية مختلفة اللغات واللهجات، بهدف تكوين نماذج فعالة تُمكِّن سيري من التعرف على الكلام مهما اختلفت طريقة اللهجات وطرق النطق.

في اللغة الإنجليزية على سبيل المثال، يمكن لسيري فهم اللهجات الأميركية والبريطانية والكندية والأيرلندية والأسترالية والجنوب أفريقية والسنغافورية والهندية والنيوزيلندية، كما يمكنه الرد باللهجات الأميركية والبريطانية والأيرلندية والأسترالية والجنوب أفريقية.

ويستخدم محرك التعرف على الصوت في آبل منصة داخلية تعتمد بشكل كبير على التعلم الآلي لتحسين فهمه للكلمات. وفي مقابلة مع وكالة رويترز عام 2017، شرح أليكس أكيرو، رئيس الفريق المعني بالصوت في سيري، هذا الأمر قائلاً إن "العملية تبدأ بإحضار أشخاص حقيقيين لقراءة فقرات وقوائم كلمات مختلفة، تغطي لهجات ولكنات مختلفة"، ثم تسجيل هذه الأصوات، وتغذية نموذج خوارزمية التعلم الآلي بهذه البيانات الأولية، ويحاول النموذج بدوره التنبؤ بالسلاسل العشوائية لهذه الكلمات. ويمكن للخوارزمية أن تتحسن تلقائيًا بمرور الوقت، مع استمرار تدريبها باستخدام المزيد من البيانات.

إلا أن فهم اللغة أو اللهجة لا يتوقف فقط على فهم الكلمات في الظروف المثالية؛ لذا فإن آبل تتيح اللغة الجديدة أولاً عبر نظام الإملاء الموجود في أجهزة كمبيوتر آبل وأجهزة آيفون، بحيث تتمكن من الحصول على مزيد من عينات الكلام من قاعدة أوسع من الأشخاص، وفي مختلف الظروف الطبيعية مثل السكوت المفاجئ والسعال وعدم وضوح الصوت. وبمقارنة هذه العينات ودمجها مع البيانات الأولية، وتكرار هذه العملية عدة مرات، تتمكن سيري من خفض معدلات الأخطاء بشكل كبير، وضمان دقة التعرف على اللغة واللهجة.

ووفقا لمجلة شركة آبل للتعلم الآلي، فقد تحسنت أنظمة التعرف التلقائي على الكلام (ASR) بشكل كبير خلال السنوات الأخيرة؛ بسبب اعتماد أساليب التعلم العميق على نطاق واسع. وانخفض معدل الخطأ في التعرف على الكلمات إلى أقل من 10%.

ساهم التعلم الآلي أيضاً في جعل سيري أكثر ذكاءً، حيث يمكنه الآن تمييز أفراد عائلة المستخدم، كما يمكن للمستخدمين شرح الكلمات الغريبة للمساعد حتى يتمكن من فهمها في المستقبل.

معركة مع المنافسين
بالرغم من التطورات المتلاحقة التي يشهدها سيري، إلا أنه يخوض معركة حامية مع منافسين شرسين مثل مساعد جوجل الذكي، وأليكسا التابعة لشركة أمازون. ويتميز سيري في عدة أشياء أبرزها القدرة على استخدام اللغة الطبيعية، كما أنه الأكثر مرحاً بين المساعدين الشخصيين، حتى أنه قادر على السخرية.

إضافة إلى ذلك يشمل النظام على خاصية "اختصارات سيري" التي تجعل إنجاز المهام أكثر سرعة وسهولة. ورغم أن مساعد جوجل يتفوق بشكل طفيف في العديد من المهام التي تتطلب استخدام الإنترنت، إلا أن بعض الاختبارات تشير إلى أن سيري أثبت أنه أكثر فائدة في تنفيذ الأوامر المتعلقة بوظائف الهاتف مثل الاتصال والرسائل النصية والبريد الإلكتروني والتقويم والموسيقى.

في الوقت الحالي يمكنك أن تطلب من سيري أن يجري قرعة باستخدام عملة معدنية، أو يلقي النرد، وسينفذ ذلك فعلًا. في النهاية، ما يصل للمستخدم هو ردود ذكية في وقت قياسي، ومع تطور الخوارزميات المستخدمة، لن يمر وقت طويل قبل أن نعجز عن التمييز بين رد سيري ورد شخص طبيعي.

المحتوى محمي