تقنية التزوير العميق تدخل مجال الغناء

في وقت سابق من هذا العام، أصدرت شركة "ديسا" (Dessa) الكندية الناشئة والمتخصصة بتطوير تقنيات الذكاء الاصطناعي شبيهاً للمذيع الأميركي المشهور جو روجان، الذي يُعرف بأنه معلق على ألعاب الفنون القتالية المختلطة، وهو أيضاً ممثل كوميدي ارتجالي. وقدمت باستخدام تقنية التزوير العميق النسخة الصوتية الشبيهة للمذيع، والتي تستخدم نفس أسلوب المذيع التوكيدي في الكلام، وصفاً لمباراة لفريق "متخيل" يؤدي إحدى الألعاب الأميركية، وذلك عن طريق توليف نص مكتوب من قبل مهندسي شركة "ديسا".

تقنية التزوير العميق "ديب فيك" (deepfake)

وإذا لم تكن ملماً بما حدث بالضبط، فقد تعتقد أنها كانت مجرد حلقة جديدة من حلقات برنامج "تجربة جو روغان"، لكن الحقيقة أن ذلك الصوت كان صادراً عن دمية رقمية من خلال تطبيق تقنية التزوير العميق "ديب فيك" (deepfake)، وهي تقنية لتوليف الصورة والصوت المعززين بالذكاء الاصطناعي، والتي قرأت أيضاً جملاً مكونة من كلمات يصعب نطقها عادة بصورة متتالية، ذلك بغرض إبراز الكمال الذي يتمتع به الذكاء الاصطناعي.

يُعد الصوت فريداً من نوعه تماماً مثل بصمة الإصبع، إذ إن لبصمة الصوت تلك ارتباطاً أساسياً بالجسم، وتنبثق من خليط فريد من الفيسيولوجيا والبيولوجيا وعادات الإنسان وتاريخه الشخصي والاجتماعي. في الوقت نفسه، كان صوت الإنسان يُفهم على مر التاريخ بأنه تعبير عن الروح، ويمثل المكانة المميزة للجنس البشري. يعدّ الإنسان في نهاية المطاف من الكائنات الحية القليلة، بما في ذلك الببغاوات والطيور المغردة والدلافين والحيتان والفيلة، القادرة على النطق.

أثارت التقنيات التي تعيد إنتاج صوت الإنسان المخاوف الوجودية على مر الزمن. ففي نهاية القرن التاسع عشر، كان توماس إديسون أول من فصل ارتباط الصوت عن جسم الإنسان، إذ أعلن في العام 1877 اختراع الفونوغراف، وهي آلة يمكنها تسجيل الصوت وتشغيله. بالنسبة إلى المستخدمين والمستمعين الأوائل، بشّر تسجيل الصوت بعصر جديد لن يموت فيه الصوت بفناء الجسد، فمن خلال الحفاظ على الصوت، وعد الفونوغراف بالإبقاء على شيء باق من الإنسان بعد موته.

ووفقاً لمقالة نشرتها "المجلة العلمية الأميركية" (Scientific American) في 1877، قدمت الآلة "وهم الوجود الحقيقي"، حيث كان يصعب التمييز بين الصوت الصادر عنها والصوت الصادر عن البشر، وهذا شبيه بما تقدمه تقنيات "التزوير العميق" المعاصرة. أما بالنسبة إلى الآخرين، مثل المؤلف الموسيقي جون فيليب سوسا، فقد أعربوا عن أسفهم حول ظهور مثل تلك "الآلات الناطقة". ففي مقالة شهيرة، انتقد سوسا "بلاء الموسيقى الآلية"، وطرح فكرة أن التسجيل الصوتي هو "بديل عن مهارة البشر وذكائهم وروحهم".

والآن، أصبحت تقنيات "التزوير العميق" الصوتية، مثل مقاطع الفيديو والصور، مهيأة لمفاقمة الأزمة المثيرة للقلق حول الأدلة والثقة والأصالة الموجودة أصلاً. من المقلق بالتأكيد أنه يمكن نشر التجسيد الصوتي بالطريقة التي تُنشر بها الفيديوهات والصور المعززة بتقنية "التزوير العميق". وبالنسبة إلى نقاد هذه التقنية، يلوح في الأفق مستقبل ينذر بالشر، حيث تقوض هذه التقنية الثقة في أشكال الأدلة التقليدية (وتنذر بحدوث المزيد من المحادثات الآلية المزعجة والاحتيال عبر الهاتف).

أما بالنسبة إلى الآخرين، فتحمل هذه التقنية الناشئة وعوداً كبيرة، حيث تقدم نماذج صوتية واقعية للأشخاص الذين يعانون من صعوبات في النطق، ومساعدين صوتيين أكثر إقناعاً، وروبوتات للدردشة أكثر وداً، واستخدامات لا حصر لها في صناعة الترفيه. كما يتصور الموسيقيون على وجه الخصوص، وذلك بدافع من اهتماماتهم الفنية أكثر من اهتمامهم بالتطبيقات التجارية، إمكانات مختلفة لمستقبل التعاون بين الإنسان والآلة.

تقنيات توليف الصوت القائمة على الذكاء الاصطناعي

انتشرت مبادرات الشركات في تقنيات توليف الصوت القائمة على الذكاء الاصطناعي على مدى السنوات القليلة الماضية. وبالاعتماد على مجموعات الأرشيف الصوتية الموجودة، كالتجربة التي قدمتها شركة "ديسا" بتوليف صوت المذيع جو روجان، فإن هذه المشاريع تميل إلى محاكاة الشخصيات الثقافية المعاصرة. في شهر يونيو/حزيران، أصدر باحثان في مجال الذكاء الاصطناعي في شركة "فيسبوك"، وهما مايك لويس وشون فاسكيز، نتائج مزج كلامهما، فيما يسمى مشروع "ميلنت" (MelNet). غُذيت التقنية بمجموعة بيانات مدتها 452 ساعة بما في ذلك أكثر من 2,000 محادثة من محادثات "تيد" (TED Talk)، وقد ولّد نظام تعلم الآلة استنساخات صوتية مدهشة لكل من بيل غيتس وجين جودال وجورج تيكي، من بين أصوات لمشاهير آخرين.

في حين أن التسجيلات الصوتية الثمينة لملفات تعريف الارتباط لبيل غيتس تقدم النصح للمستمع بأمور من قبيل "قطف الوردة الزاهية دون أوراقها" هي أحاديث جديدة من نوعها، إلا أن تلك الاستنساخات الصوتية ليست جديدة تماماً. في عام 2016، عمل القائمون على مشروع "ويف نت" (WaveNet)، وهو مشروع تابع لجوجل ديب مايند (Google DeepMind)، بتوليف الأصوات من خلال أخذ عينات من الكلام البشري الحالي الموجود لديهم.

منذ ذلك الحين، واصلت عدة شركات ناشئة ومجموعات البحث الدولية تطوير التكنولوجيا وتطبيقاتها بطرق تختبر حدود استخدام الهوية التقليدية. تبني شركة "مودوليت" (Modulate)، التي تتخذ من مدينة "كامبريدج" مقراً لها، طبقات صوتية تتيح لك استخدام صوت شخص آخر. أما مشروع "ديب فويس" (Deep Voice) التابع لشركة "بايدو" (Baidu) فيعمل على استبدال اللهجة أو الصوت على أساس النوع الاجتماعي.

وهناك مشاريع أخرى أكثر إيثاراً، فمن خلال مشروع "ريفويس" (Project Revoice)، القائم بالشراكة مع مؤسسة "أيه إل إس" (ALS)، تهدف الشركة الناشئة "لايربيرد" (Lyrebird) القائمة في مونتريال، التي تحمل اسم الطائر الأسترالي ذي القدرة الغريبة على محاكاة الأصوات الطبيعية والاصطناعية، إلى استعادة أصوات المرضى المعرضين لفقدان أصواتهم، وذلك بصورة رقمية.

تتعلم جميع تلك الأنظمة الكلام بصورة أساسية من خلال تحليل الفوارق الدقيقة لأصوات البشر من بين كميات ضخمة من البيانات الصوتية. لكن بينما دُربت البرامج السابقة على تحليل الموجات الصوتية، مثل شركة "ديسا"، يستخدم "مشروع ميلنت" بدلاً من ذلك التمثيل المرئي لطيف ترددات الموجات الصوتية. ولأن ذلك التمثيل المرئي أكثر كثافة من ناحية المعلومات، فيمكنه التقاط أوامر باستخدام حجم أكبر من البيانات.

يؤكد فاسكيز ولويس في ورقتهما البحثية على تفوق "مشروع ميلنت" بالتقاط "تركيبة عالية المستوى"، مثل الأبعاد الخفية والدقيقة للهجة الصوت وطبقته والإيقاع الذي يشبع الصوت بهويته. على الرغم من صعوبة وصفها، إلا أن عناصر الصوت هذه تتوافق معها الأذن البشرية بصورة كبيرة. ويصف خوسيه سوتيلو، المؤسس المشارك لشركة "لايربيرد"، تلك البصمات الصوتية بأنها "الحمض النووي للصوت".

استخدام تقنيات الذكاء الاصطناعي في مجال الغناء

من خلال استنساخ هذه العناصر، قد يهدد توليف كلام الإنسان بواسطة الذكاء الاصطناعي الحالة الفريدة لصوت الإنسان، ولكن يمكن أن يساعدنا على إيجاد طرق جديدة للتعبير عن إنسانيتنا. في الألبوم الأخير للملحنة التي تعتمد أسلوب التجريب هولي هرندن، والذي صدر تحت عنوان "بروتو" (Proto)، تعاونت الملحنة مع شريكها الفنان مات درايهرست وخبير الذكاء الاصطناعي جول لابلاس على بناء "طفل" سميّ "سبون" (Spawn) باستخدام الذكاء الاصطناعي. ولأنه دُرب على أغانٍ شعبية تؤديها فرق غنائية، يساعد "سبون" المؤلفة على تأليف موسيقى يصعب فيها التمييز بين الأصوات البشرية وغير البشرية بمؤلفات لا تنسى وربما غير سارة في بعض الأحيان.

من خلال استخدام الموسيقيين الآخرين تقنيات الذكاء الاصطناعي، فإنهم غالباً ما شغّلوا الشبكات العصبية في كتالوجاتهم الصوتية الخاصة، أو في المصادر الموسيقية الموجودة، إلا أن هرندن استخدمت التكنولوجيا لتعزيز الأساليب الإبداعية الجديدة بدلاً من أتمتة عملية التأليف. ولوجود نزعة طوباوية من ناحية التكنولوجيا، تستخدم هرندن التقنيات الصوتية القائمة على الذكاء الاصطناعي لاستكشاف ظهور السمات الإنسانية داخل الآلة.

على مدار عامين، دربت هرندن "سبون" ضمن مجتمع من البشر، بما في ذلك حضوره جلسة غنائية تضم 300 شخص في قاعة معارض برلين "مارتن غروبيوس باو" (Martin-Gropius-Bau). شاهدت شخصياً تسجيلاً لهذه الجلسة على منصة تقديم الأداء المباشر (ISM Hexadome) في سان فرانسيسكو، وهي عبارة عن منصة بنظام ست قنوات استخدمتها هرندن أيضاً لهذا النوع من التدريب الجماعي الحي.

إن مزج أداء الإنسان والآلة في تفاعل ديناميكي والمقطوعات التي يتفاعل معها أفراد الجمهور وتسجيلات الفيديو وطفل الذكاء الاصطناعي "سبون"، يحرك أداء الفرقة بتأثير عميق. بهذه الطريقة، ضمت هرندن هذه التكنولوجيا الناشئة ضمن الأداء البشري بصورة مثالية. وفقاً للمتخصص في علم موسيقى الشعوب جاري توملينسون، فإن الغناء متداخل بقوة مع تاريخ الإنسان وثقافته وتطوره.

الكثير من النقاشات التي تجري عبر وسائل الإعلام حول الذكاء الاصطناعي تكرر الرؤية المضطربة للآثار المروعة للتكنولوجيا على ثقافة الإنسان والمجتمع، وتُروى قصة مفادها أن الآلات سوف تأخذ وظائف الإنسان وتؤتمت أعمالنا في نهاية المطاف وتنهيها. تميل الروايات الإعلامية حول الذكاء الاصطناعي في الوقت نفسه إلى طمس عمل الإنسان الذي يدفع عمليات تعلم الآلة هذه، بما في ذلك كتابة الشيفرة البرمجية المضنية والتدريب ومعالجة البيانات والتأليف.

ولتأكيد ارتباطاتنا مع بعضنا باستخدام الذكاء الاصطناعي، تعطي هرندن نموذجاً لأخلاقيات المشاركة التي تحتفل بالبشر الذين يتطورون مع التكنولوجيا. وتقول لمجلة "لاود آند كوايت" (Loud and Quiet) "لقد كان جسم الإنسان يشبه الآلة منذ التحول الصناعي، فكيف يمكن للتكنولوجيا تخليص أجسامنا من هذه الحركات الشبيهة بالآلات حتى نتمكن من أن نكون أكثر إنسانية. هذه هي رؤيتي".

أثناء بناء طفل الذكاء الاصطناعي "سبون"، كانت هرندن والمتعاونون معها يدركون تماماً أن التقنيات تطمس القيم. ففي ألبوم "بروتو"، فكروا في البروتوكول اللائق ليس فقط فيما يتعلق بالبنية التحتية التكنولوجية، ولكن باعتباره "مجموعة أساسية من القواعد التي يوافق عليها المجتمع". وتقول "لمجلة ذا فيدر" (The Fader) "ما نوع القيم التي نريد غرسها على مستوى البروتوكولات قبل خروج الأمور عن السيطرة؟ ما الذي نريد أخذه كحقيقة مشتركة؟ إنها ليست مجرد مسألة تقنية، بل إنها مسألة سياسية واجتماعية أيضاً".

من هذا المنطلق، فإن تعاون هرندن مع طفل الذكاء الاصطناعي "سبون" - والعديد من الأشخاص الذين شاركوا في إنجاح هذا المشروع - يجسد نهجاً مهماً لاستخدام الذكاء الاصطناعي الذي يدعوه مدير مختبر الإعلام في "معهد ماساتشوستس للتكنولوجيا" (إم آي تي) جوي إيتو بـ "الذكاء الموسع" بدلاً من الذكاء الاصطناعي. ويقول لمجلة "وايرد" (Wired): "بدلاً من محاولة التحكم في الأنظمة أو تصميمها أو فهمها، من الأهمية بمكان تصميم أنظمة تتشارك كعناصر تتسم بالمسؤولية والوعي والفاعلية في أنظمة أكثر تعقيداً".

يهدد استنساخ الصوت بانتشار الأخبار الكاذبة المشروعة. ومع ذلك، يمكنهم أيضاً تعزيز دور الأفراد والنظم المتكيفة المعقدة التي نعمل ونعيش فيها بدلاً من استبدالها. يعكس الذكاء الاصطناعي أصواتنا وقيمنا، ويُظهر لنا الأجزاء الآلية أكثر من أنفسنا، ويتحدانا لإيجاد تعبير يلائمه أكثر وعياً. من خلال استخدامه بهذه الطريقة، فإن الذكاء الاصطناعي ليس مجرد محاكاة، بل إنه شريك يمكنه الارتجال، وبدلاً من استبدال صوت الإنسان، قد ينضم الذكاء الاصطناعي للغناء ضمن الفرق، عبر استخدام تقنية التزوير العميق في مجال الغناء.