استطاع التعلم العميق أخيراً أن يُحوِّل التسجيلات أحادية القناة إلى صوت اندماجي

إذا أصغيت إلى طير يغرِّد في شجرة قريبة، يمكنك بسرعة نسبية أن تحدِّد مكانه التقريبي من دون أن تنظر، وإذا سمعت هدير محرك سيارة أثناء عبور الشارع، يمكنك أن تميز على الفور ما إذا كانت خلفك أم لا.

إن قدرة البشر على تحديد مصدر الصوت ضمن الفضاء ثلاثي الأبعاد مذهلة، وقد تمكن العلماء من تحليل هذه الظاهرة بشكل جيد، وهي تعود إلى الشكل غير المتناظر للأذن البشرية، والبعد ما بين الأذنين.

وعلى الرغم من أن الباحثين تمكنوا من تعلم كيفية تشكيل صور ثلاثية الأبعاد قادرة بسهولة على خداع أنظمتنا البصرية، إلا أنه لم يتمكن أحد من التوصل إلى طريقة جيدة لبناء صوت ثلاثي الأبعاد قادر على خداع أنظمتنا السمعية بشكل مقنع.

ولكن يبدو أن هذا سيتغير -على الأقل جزئياً- وذلك بفضل عمل روهان جاو في جامعة تكساس وكريستن جراومان في قسم الأبحاث التابع لفيسبوك؛ فقد استخدما حيلة يعتمد عليها البشر أيضاً لتعليم أنظمة الذكاء الاصطناعي تحويلَ الأصوات العادية أحادية القناة "مونو" إلى أصوات ثلاثية الأبعاد من مستوى جيد، وقد أطلقوا عليها اسم 2.5 دي، أي الصوت ذا البعدين والنصف.

ولنبدأ أولاً ببعض المعلومات الأولية. حيث يستخدم الدماغ مجموعة من الدلائل لتحديد مصدر الصوت في الفضاء ثلاثي الأبعاد، ومن أهم هذه الدلائل هو فرق توقيت وصول الصوت إلى كل أذن، المسمى: فرق التوقيت السمعي.

من الواضح أن الصوت الصادر عن يسارك يصل إلى الأذن اليسرى قبل اليمنى، وعلى الرغم من أنك لا تدرك هذا الفرق بشكل واعٍ، إلا أن دماغك يعتمد عليه لتحديد مصدر الصوت.

ومن الدلائل الأخرى شدة الصوت؛ حيث سيكون الصوت أكثر شدة بالنسبة للأذن اليسرى من الأذن اليمنى، ويستخدم الدماغ هذه المعلومة أيضاً ليتوصل إلى النتيجة المطلوبة، وهو ما يسمى: فرق الشدة السمعية.

وتعتمد هذه الفروق على المسافة الفاصلة بين الأذنين. لا تنتج تسجيلات الستيريو (الصوت ثنائي القناة) هذا التأثير، لأن المسافة الفاصلة بين ميكروفونات الستيريو لا تُطابق المسافة الفاصلة بين الأذنين.

وهناك معامل هام آخر أيضاً، وهو طريقة تفاعل الصوت مع صوان الأذن، الذي يقوم بتشتيت الصوت بشكل يعتمد على اتجاه صدوره. وعلى سبيل المثال، إذا صدر الصوت من أمامك، فسوف يصل إلى القناة الأذنية قبل أن يصل إلى الصوان، ويحدث العكس عند صدوره من الخلف، حيث يقوم الصوان بتشتيته قبل أن يصل إلى القناة الأذنية.

ويستطيع الدماغ الإحساس بهذه الاختلافات أيضاً. وفي الواقع، فإن الشكل غير المتناظر للأذن هو السبب الذي يجعلنا قادرين على تمييز اتجاه صدور الصوت.

ولإنتاج الصوت ثلاثي الأبعاد بشكل اصطناعي، يجب أن نحاكي كل هذه التأثيرات الهندسية على الصوت، وهي مشكلة صعبة. ومن إحدى الوسائل لقياس هذا التأثير: التسجيل ثنائي السمع؛ وذلك بوضع ميكروفون داخل كل أذن لالتقاط هذه الفروقات الصغيرة. وبتحليل هذه الفروقات، يمكن للباحثين محاكاتها باستخدام خوارزمية رياضية معروفة باسم تابع النقل الرأسي، مما يحول أي سماعات عادية إلى جهاز رائع لتجسيم الصوت.

ولكن نظراً للاختلافات بين آذان البشر، يسمع كل شخص الأصوات بطريقة مختلفة. أي أن تحديد تابع النقل الرأسي الخاص بشخص معين يعني قياس شكل أذني الشخص نفسه قبل التسجيل. قد تكون هذه العملية سهلة في المختبر، ولكن لم يتوصل أحد إلى طريقة لفعل هذا في العراء.

غير أنه توجد طرق أخرى لتقريب الصوت ثلاثي الأبعاد باستخدام التأثيرات الصوتية التي لا تعتمد على شكل الأذن، أي فروقات الشدة السمعية والتوقيت السمعي.

وقد قرر الباحثان استخدام حيلة لتحديد مصدر الصوت عن طريق الدلائل البصرية (وهو ما يفعله البشر في أغلب الأحيان أيضاً). وبالاعتماد على فيديو وتسجيل صوتي أحادي القناة، يمكن لنظام تعلم آلي استنتاج مصدر الصوت، وتطبيق فرق الشدة السمعية وفرق التوقيت السمعي لإنتاج صوت يُوحي بأنه ثلاثي الأبعاد عند الاستماع إليه.

لنتخيل مثلاً مقطعاً مرئياً يُظهر موسيقيَّين يعزفان على الطبل والبيانو. إذا كان الطبل في الجهة اليسرى من المنظر والبيانو في الجهة اليمنى، فمن البديهي أن نستنتج أن صوت الطبل يجب أن يصدر من اليسار وأن صوت البيانو يجب أن يصدر من اليمين. وهذا ما يقوم به نظام التعلم الآلي، أي تغيير الصوت وفق هذه المعطيات.

وقد استخدم الباحثان طريقة بسيطة ومباشرة نسبياً للتدريب؛ حيث إن الخطوة الأولى في تدريب أي نظام تعلم آلي هي بناء قاعدة بيانات من التأثيرات التي يجب أن يتعلمها، وقد قام الباحثان ببنائها عن طريق تنفيذ عمليات تسجيل ثنائي السمع لأكثر من 2,000 مقطع موسيقي قاما أيضاً بتحويلها إلى مقاطع مرئية.

ويتألف نظام التسجيل السمعي من أذنين اصطناعيتين تفصل بينهما مسافة تساوي عرض رأس بشري، ويحتوي أيضاً على كاميرا تقوم بتسجيل المشهد في الأمام باستخدام كاميرا جو برو.

واستخدم الفريق هذه التسجيلات بعد ذلك لتدريب خوارزمية التعلم الآلي للتعرف على مصدر الصوت بالاعتماد على المقطع المرئي، وبهذا أصبح النظام قادراً على تحليل المقطع وتطبيق التأثيرات على التسجيل الصوتي أحادي القناة لمحاكاة صدور الصوت عن مصدره. يقول الباحثان: "نسمي النتيجة بالصوت المرئي 2.5 دي، حيث يساعد المقطع المرئي على "رفع" القناة الأحادية إلى صوت مجسم".

وقد تمكن الباحثان من تحقيق نتائج ممتازة، ويمكنك أن تشاهد هذا المقطع المرئي عن عملهما، ولا تنسَ ارتداء سماعات الأذنين أثناء المشاهدة:

مصدر الفيديو: روهان جاو

ويتضمن المقطع مقارنة نتائج 2.5 دي مع التسجيلات أحادية القناة ويُظهر مدى جودتها، يقول الباحثان: "يمثل صوت 2.5 دي المتوقع تجربة صوتية أكثر اندماجية".

غير أن الطريقة لا تُنتج صوتاً حقيقياً ثلاثي الأبعاد للأسباب المذكورة أعلاه؛ حيث إن الباحثَين لا يقومان بتشكيل تابع نقل رأسي مخصَّص لكل شخص. كما أنه توجد بعض الأوضاع التي تجد الخوارزميةُ صعوبةً في التعامل معها. فمن الواضح مثلاً أن النظام لا يستطيع التعامل مع أي صوت لا يَظهر مصدره في الفيديو، كما أنه لا يستطيع التعامل مع مصادر الأصوات التي لم يتدرب على التعرف عليها، فهو يركز بشكل أساسي على المقاطع الموسيقية.

وعلى كل حال، لا يمكن أن ننكر أن الباحثَين قدَّما فكرة ذكية تصلح للكثير من المقاطع الموسيقية، ويطمحان إلى المزيد من التطبيقات، ويقولان: "نخطط لدراسة وسائل لتضمين تحديد أماكن الأجسام وحركتها، ونمذجة أصوات المشاهد بشكل مباشر".

مرجع: arxiv.org/abs/1812.04204
الصوت المرئي 2.5 دي