كيف استفاد الممثل الأميركي فال كيلمر من الذكاء الاصطناعي لإنشاء صوته في فيلم Top Gun؟

يعتبر الممثل الأميركي فال كيلمر أحد أشهر الممثلين في هوليود، وقد لعب أدواراً في العديد من الأفلام الشهيرة، لكن في عام 2014، شخص الأطباء إصابته بسرطان الحلق، وخضع لعملية شق في القصبة الهوائية أدت لتغيير صوته وجعلته غير قادر على التحدث والتواصل بشكلٍ جيد.

منذ ذلك الحين، واجه كيلمر صعوبة كبيرة في أداء الأدوار السينمائية، لكن مسيرته الفنية لم تنتهِ بفضل التكنولوجيا التي منحته فرصةً جديدة، حيث استعان علماء وخبراء تقنيين بالذكاء الاصطناعي لإنشاء نسخة طبق الأصل عن صوته.

منذ أغسطس 2021، تعمل شركة "سونانتيك" (Sonantic) الناشئة والتي يقع مقرها في العاصمة البريطانية لندن مع الممثل لإنشاء نسخة من صوته، هذا الصوت الذي تم إنشاؤه بتكنولوجيا الذكاء الاصطناعي مكّن كيلمر من أداء دوره الجديد في فيلم "توب غان: المنشق" (Top Gun: Maverick).

شركة سونانتيك

تستخدم شركة سونانتيك الذكاء الاصطناعي لإنشاء أصوات تكون إما اصطناعية أو تحاكي صوت أشخاص حقيقيين. وقد تم استخدام الأصوات التي أنشأتها في ألعاب الفيديو والأفلام وفي علاج صعوبات النطق.

صوت الممثل فان كيلمر الذي تم إنشاؤه هو صوت اصطناعي وهو يشبه صوت الممثل الأصلي تماماً، وتم الحصول عليه من خلال محاكاة التسجيلات القديمة للممثل.

كيف تم إنشاء صوت الممثل؟

الخطوة الأولى من العمل هي جمع التسجيلات الصوتية السابقة للممثل. ومن أجل جعل هذه التسجيلات جيدة، كان من الضروري تنظيفها، أي إزالة الضوضاء الموجودة في الخلفية والإبقاء على صوت الممثل فقط.

كان عدد التسجيلات التي أرسلت للشركة من أجل معالجتها قليلاً نسبياً، وهذا يعتبر مشكلة بالنسبة لمن يستخدم الذكاء الاصطناعي، فهذه التكنولوجيا تحتاج إلى كميات ضخمة من البيانات من أجل تدريبها، وكلما كان عدد البيانات المتوفرة قليلاً، تكون النتيجة أقل جودة والعمل المطلوب أكثر صعوبة. وبعد الانتهاء من تنظيف المقاطع الصوتية، تم إنشاء نصوص من الصوت، وتم تقسيم الصوت إلى أجزاء صغيرة وإقران كل جزء بالنص الذي يتضمنه.

استخدمت هذه الأجزاء الصغيرة من المقاطع الصوتية والنصوص المقترنة بها من أجل تدريب النموذج في محرك صوتي، كان عدد المقاطع أقل بنحو 10 مرات من عدد المقاطع التي تستخدم عادةً في أي مشروع.

بسبب نقص البيانات، لم تتمكن الخوارزميات في محرك الصوت من إعطاء النتائج المرجوة، لذلك، عمل الخبراء على إنشاء خوارزميات جديدة يمكنها أن تعطي نتائج أفضل وعالية الجودة بهذه البيانات المتاحة. وبفضل الخوارزميات الجديدة، تم إنشاء أكثر من 40 نموذجاً صوتياً مختلفاً، وأجرى الخبراء تقييماً لكل نموذج واختاروا الأفضل منها والأعلى جودة من أجل استخدامها. أضيفت هذه الخوارزميات الجديدة التي تم تطويرها إلى محرك الصوت الذي تستخدمه شركة سونانتيك في مشاريعها، وسوف يتمكن عملاء الشركة من الاستفادة منها لإنشاء نماذج صوتية عالية الجودة دون الحاجة لتوفير الكثير من البيانات.

الخطوة الثانية بعد إنشاء نموذج صوتي عالي الجودة مطابق لصوت الممثل هو استخدام هذا النموذج مع نصوص أخرى جديدة، وضبطه مع حركة الشفاه والتعبيرات التي تظهر في مشاهد الفيلم السينمائي. وقد بدت النتيجة النهائية واقعية وطبيعية للغاية، وهي تتيح للممثل القدير إمكانية تأدية أدوار سينمائية جديدة باستخدام صوته الأصلي.

قال كيلمر بعد انتهاء المشروع وسماع صوته الذي تم إنشاؤه بالذكاء الاصطناعي: "أعادت شركة سونانتيك صوتي ببراعة وبطريقة لم أتخيل أبداً أنها ممكنة". وأضاف قائلاً: "كبشر، تعد القدرة على التواصل جوهر وجودنا، وقد جعل سرطان الحلق الآخرين يواجهون صعوبة في فهمي، أنا أملك الآن فرصة لسرد قصتي بصوتٍ يبدو مألوفاً، هذه هدية خاصة لا تصدق". وقالت ابنة كيلمر لصحيفة نيويورك بوست إن دور والدها في الفيلم كان مميزاً للغاية.

مخاطر هذه التقنية

إذا كان أحد الأشخاص يعاني من صعوبة في التحدث أو عدم القدرة على التواصل مع الآخرين بصوته، فإن أي تقنية تساعده على استعادة صوته ستكون مفيدة للغاية، وهذا بالضبط ما حصل مع الممثل الأميركي فان كيلمر. لكن في نفس الوقت، يمكن أن تستخدم الأصوات المزيفة التي يتم إنشاؤها بالذكاء الاصطناعي في عمليات احتيال أو تزييف تعرف باسم "الصوت العميق" (Deep voice)، على غرار تكنولوجيا التزييف العميق التي جعلت تزييف الفيديوهات أمراً سهلاً.

على سبيل المثال، تم استخدام أصوات مزيفة في قضية احتيال بنكي العام الماضي، وتمكن المجرمون من سرقة 35 مليون دولار بعد إنشاء نسخة مطابقة لصوت مدير إحدى الشركات في الإمارات العربية المتحدة.