السماعات المانعة للضوضاء المدعومة بالذكاء الاصطناعي تنتقي الأصوات التي يُسمح بمرورها

الحياة العصرية صاخبة. وإذا لم تعجبك، يمكن للسماعات المانعة للضوضاء تقليل الأصوات في البيئة المحيطة بك. لكنها تكتم الأصوات دون تمييز، لذا يمكن أن ينتهي بك الأمر بسهولة إلى أن يفوتك سماع شيء تريد سماعه بالفعل. يهدف نموذج أولي لنظام ذكاء اصطناعي جديد لسماعات الرأس هذه إلى حل هذه المشكلة. يُطلق على النظام اسم "الاستماع إلى الكلام المستهدف" (Target Speech Hearing)، ويمنح المستخدمين القدرة على اختيار الشخص الذي سيظل صوته مسموعاً حتى عند إلغاء الأصوات الأخرى جميعها.

سماعات تساعد على الاستماع إلى الكلام المستهدف

على الرغم من أن هذه التكنولوجيا ما زالت حالياً في مرحلة إثبات المفهوم، يقول مبتكروها إنهم يجرون محادثات لدمجها في العلامات التجارية الشهيرة لسماعات الأذن المانعة للضوضاء ويعملون أيضاً على إتاحتها في أجهزة تقوية السمع. يقول الأستاذ في جامعة واشنطن، شايام غولاكوتا، الذي شارك في المشروع: "يعد الاستماع إلى أشخاص محددين جانباً أساسياً في الأساليب التي نتبعها للتواصل والأساليب التي نتبعها للتفاعل مع غيرنا من البشر في العالم المادي. لكن قد يكون من الصعب حقاً، حتى لو لم يكن لديك أي مشاكل تتعلق بفقدان السمع، التركيز على أشخاص محددين في المواقف التي تتضمن مستوى عالياً من الصخب".

تمكّن الباحثون أنفسهم سابقاً من تدريب شبكة عصبونية للتعرف على أصوات معينة وفلترتها، مثل بكاء الأطفال أو تغريدات الطيور أو رنين المنبهات. لكن فصل الأصوات البشرية يمثل تحدياً أصعب، ويتطلب شبكات عصبونية أعقد بكثير.

يمثل هذا التعقيد مشكلة عندما تحتاج نماذج الذكاء الاصطناعي إلى العمل في الزمن الحقيقي داخل زوج من السماعات المحدودة من حيث إمكانات الحوسبة وعمر البطارية. لمواجهة هذه القيود، يجب أن تكون الشبكات العصبونية صغيرة وتتمتع بالكفاءة في استهلاك الطاقة. لذلك استخدم الفريق تقنية لضغط الذكاء الاصطناعي تسمى "تقطير المعرفة" (knowledge distillation). هذا يعني أن الفريق استخدم نموذج ذكاء اصطناعي ضخم بعد تدريبه على ملايين الأصوات ("المعلم") في تدريب نموذج أصغر بكثير ("التلميذ") لتقليد سلوكه وأدائه وفق المعيار نفسه.

"تقطير المعرفة": تقنية ذكاء اصطناعي جديدة استُخدمت للتدريب

تعلم النموذج التلميذ بفضل هذا التدريب كيفية استخلاص الأنماط الصوتية لأصوات معينة من الضوضاء المحيطة التي تلتقطها ميكروفونات متصلة بزوج من السماعات المانعة للضوضاء المتاحة تجارياً. لتنشيط نظام الاستماع للكلام المستهدف، يضغط مرتدي السماعات باستمرار على زر مدمج بها عدة ثوانٍ بينما يواجه الشخص المستهدف بعملية التركيز. خلال عملية "التسجيل" هذه، يلتقط النظام عيّنة صوتية من كلتا السماعتين ويستخدم هذا التسجيل لاستخراج الخصائص الصوتية للمتحدث، حتى بوجود أصوات متحدثين آخرين وضوضاء أخرى في المنطقة المجاورة.

تُلَقّم هذه الخصائص إلى شبكة عصبونية ثانية تعمل على كمبيوتر متحكم مصغر متصل بالسماعات عبر كابل يو إس بي (USB). تعمل هذه الشبكة من دون توقف، بحيث تبقي الصوت المختار منفصلاً عن أصوات الآخرين وتعاود تشغيله حتى يصغي إليه المستمع. ما إن يركز النظام على متحدث معين، فإنه يستمر في إعطاء الأولوية لصوت هذا الشخص، حتى لو ابتعد مرتدي السماعة عنه.

كلما زادت بيانات التدريب التي يكتسبها النظام من خلال التركيز على صوت المتحدث، أصبحت قدرته على عزله أفضل. في الوقت الحالي، لا يستطيع النظام سوى تسجيل متحدث مستهدف بنجاح عندما يكون صوته هو الصوت العالي الوحيد الموجود، لكن الفريق يهدف إلى جعل النظام يعمل حتى عندما لا يكون الصوت الأعلى في اتجاه معين هو المتحدث المستهدف. إن تمييز صوت واحد في بيئة صاخبة أمر صعب للغاية، كما يقول أحد كبار الباحثين في شركة مايكروسوفت، سيفيك إيمري إسكيميز، المختص بالكلام والذكاء الاصطناعي، لكنه لم يشارك في البحث. ويقول: "أعلم أن الشركات تريد تحقيق هذا الأمر، وإذا تمكنت من ذلك، فإنه يفتح المجال أمام الكثير من التطبيقات، ولا سيما في سيناريوهات الاجتماعات".

وفي حين تميل أبحاث فصل الكلام إلى أن تكون نظرية أكثر منها عملية، فإن هذا العمل يقترن بتطبيقات واضحة في العالم الحقيقي، كما يقول الباحث في معهد التكنولوجيات اللغوية بجامعة كارنيغي ميلون، صامويل كورنيل، الذي لم يعمل على البحث. يقول كورنيل: "أعتقد أنها خطوة في الاتجاه الصحيح. وتمثل دفعة قوية".