ميتا تطور أداة ذكاء اصطناعي تمكنك من التحدث بـ 6 لغات

أعلنت شركة ميتا هذا الأسبوع أنها حققت تقدماً كبيراً في مجال الذكاء الاصطناعي التوليدي للكلام. كشفت الشركة النقاب عن فويس بوكس (Voicebox)، وهو نموذج ذكاء اصطناعي توليدي قد يمثّل بالنسبة للكلام المنطوق الأهمية نفسها التي مثّلتها أدوات تشات جي بي تي (ChatGPT) ودال-إي (Dall-E) بالنسبة لتوليد النصوص وتوليد الصور على الترتيب. ولكن على الرغم من اعتراف الشركة بأنه قد يكون "طفرة"، فإنها رفضت طرح النموذج للجمهور.

"فويس بوكس" على خطى "تشات جي بي تي"

يمثّل نموذج "فويس بوكس" بشكلٍ أساسي أداةً لتحويل النصوص إلى مخرجات، تماماً مثل "تشات جي بي تي" و"دال-إي"، ولكن بدلاً من توليد نصوص أو صور، فإنها تولّد كلاماً منطوقاً من خلال إدخال مقطع صوتي موجز مصحوب بنص مكتوب، يمكن لهذه الأداة إنشاء مقطع جديد عالي الجودة يتضمن النص المدخل بصوتٍ مماثل لصوت الشخص الموجود في المقطع الأصلي.

بالإضافة إلى ذلك، يمكن لـ "فويس بوكس" تعديل المقاطع الصوتية المسجلة سابقاً مثل إزالة أبواق السيارات أو نباح الكلاب مع الحفاظ على محتوى الكلام وأسلوب الصوت، ما يجعل الأداة أقرب إلى "ممحاة" لمسح وتعديل الكلام، كما أن النموذج متعدد اللغات ويمكنه توليد الكلام بست لغات مختلفة حتى لو كان المقطع الصوتي الأصلي بلغة أخرى. هذه اللغات هي: الإنجليزية والفرنسية والألمانية والإسبانية والبولندية والبرتغالية.

تستعرض ميتا في هذا المقطع، بعض القدرات العملية التي يتمتع بها النموذج:

Introducing Voicebox, a new breakthrough generative speech system based on Flow Matching, a new method proposed by Meta AI. It can synthesize speech across six languages, perform noise removal, edit content, transfer audio style & more.

More details on this work & examples ⬇️

— Meta AI (@MetaAI) June 16, 2023

طفرة في الذكاء الاصطناعي التوليدي للكلام

ثمة العديد من التطبيقات الأخرى التي تحوّل النصوص إلى مقاطع صوتية، لكن ما يجعل "فويس بوكس" يمثّل "طفرة" في هذا المجال هو قدرته على أداء العديد من مهام توليد الكلام دون أن يتم تدريبه عليها بشكلٍ صريح.

قبل "فويس بوكس"، كان الذكاء الاصطناعي التوليدي للكلام يتطلب تدريباً خاصاً لكل مهمة باستخدام بيانات تدريب معدة بعناية. في المقابل، يستخدم هذا النموذج نهجاً جديداً للتعلم من الصوت الخام والنص المصاحب له فقط.

أتاحت هذه الطريقة، التي طوّرتها ميتا وتُسمى فلو ماتشينغ (Flow Matching)، لـ "فويس بوكس"، التفوق على نماذج الانتشار (Diffusion Models) في العديد من مهام توليد الكلام، كما مكّنته من التعلم من بيانات كلامية متنوعة دون الحاجة إلى وسم الاختلافات بينها بدقة. ويمكن للنموذج حالياً توليد الكلام بمعدل يصل إلى 20 مرة أسرع من أحدث نماذج الانحدار التلقائي (Autoregressive Models)، بحسب الشركة.

ما المهام التي يمكن لـ "فويس بوكس" أداؤها؟

يمكن لـ "فويس بوكس" أداء مجموعة متنوعة من المهام، وتشمل:

تحويل النص إلى كلام مركّب: يمكن للنموذج استخدام عينة صوتية لا تتجاوز مدتها ثانيتين لمطابقة نمط الصوت، واستخدامه لتحويل النص المكتوب إلى كلام منطوق. وتنتج الأداة في النهاية كلاماً يبدو متماسكاً مع المقطع المرجعي من كل الجوانب، بما في ذلك الصوت والضوضاء في الخلفية وأسلوب التحدث.
إزالة الضوضاء العابرة: يمكن لـ "فويس بوكس" تعديل أجزاء الكلام التي أثّرت الضوضاء أو الأصوات الخارجية في جودتها دون الحاجة إلى إعادة تسجيل الكلام بأكمله مرة أخرى. على سبيل المثال، يمكنك تحديد جزء من الكلام قاطعه نباح كلب أو جرس الباب، واقتصاصه وتوجيه الأداة لإعادة إنشاء هذا الجزء تحديداً.
تعديل الصوت: يمكن لـ "فويس بوكس" أيضاً استبدال الكلمات التي نُطقت بشكلٍ خاطئ دون الحاجة إلى إعادة التسجيل، وذلك عبر مسح الكلمات الخاطئة من النص وتعديلها. وترى الشركة أنه يمكن استخدام هذه الإمكانية يوماً ما لجعل تنظيف الصوت وتحريره أمراً سهلاً، مثلما تفعل أدوات تحرير الصور حالياً.
نقل أسلوب الكلام عبر اللغات: يمكن إدخال عينة من كلام أحد الأشخاص ومقطع من نص مكتوب بأي لغة من اللغات الست التي يجيد "فويس بوكس" نطقها، ليقرأ النموذج النص بصوت هذا الشخص وبأي من تلك اللغات، وذلك حتى عندما تكون العينة الصوتية والنص بلغات مختلفة.

وتقول ميتا إنه يمكن استخدام هذه الإمكانية في المستقبل لمساعدة الأشخاص على التواصل بطريقة طبيعية حتى لو كانوا لا يتحدثون اللغات نفسها. كما تتمتع أداة "فويس بوكس" بالقدرة على الحفاظ على المحاذاة الزمنية الأصلية بين النص والكلام، وبالتالي يمكن استخدامها لتحويل الكلام المدبلج إلى صوت المتحدث الأصلي، ما سيمكّن أي شخص من "التحدث بأي لغة بصوته في يوم من الأيام".

قدرات رائعة لكن مخاطر الاستخدام مرتفعة

قام الباحثون بتدريب النسخة الإنجليزية من "فويس بوكس" على 60 ألف ساعة من البيانات، وبتدريب النسخة متعددة اللغات على 50 ألف ساعة من الكلام المسجل والنصوص المأخوذة من الكتب الصوتية العامة باللغات الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية، كما تم تدريب النموذج على التنبؤ بمقاطع الكلام بناء على الكلام المحيط والنصوص المقابلة.

تقول ميتا إن نماذج الذكاء الاصطناعي متعددة الأغراض، مثل "فويس بوكس"، قد تمكّن المساعدين الافتراضيين والشخصيات غير القابلة للعب (NPCs) في عالم الميتافيرس من امتلاك أصوات طبيعية، كما يمكنها مساعدة الأفراد غير القادرين على التحدث، والسماح للأشخاص ضعاف البصر بسماع الرسائل المكتوبة التي يتلقونها من أصدقائهم عندما يقرأها الذكاء الاصطناعي بأصواتهم، بالإضافة إلى منح المبدعين أدوات جديدة لإنشاء وتحرير المقاطع الصوتية بسهولة.

على الرغم من كل هذه القدرات الرائعة، فإن الشركة حجبت وصول الجمهور إلى النموذج والتعليمات البرمجية المصدرية الخاصة به، بسبب ما ترى أنه ارتفاع في "المخاطر المحتملة لسوء الاستخدام".

تسبب استخدام المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في زيادة القلق بشأن التهديدات المحتملة. في الآونة الأخيرة، تعرضت امرأة للخداع من قِبل مجرمين على الإنترنت حاولوا استخدام صوت تم إنشاؤه بواسطة الذكاء الاصطناعي والاتصال بها منتحلين شخصية حفيدها. وتُثير أنظمة تركيب الكلام المتقدمة مثل "فويس بوكس" المخاوف من استخدامها لأغراض ضارة، مثل إنشاء أدلة مزيفة أو التلاعب بمقاطع صوتية حقيقية.

وتوضّح الشركة أنها تدرك حجم الضرر المحتمل الذي يمكن أن يؤدي إليه هذا النوع من الذكاء الاصطناعي. لذلك، يقول الباحثون في الدراسة التي أعلنت ميتا من خلالها عن الأداة، إنهم طوّروا أداة تصنيف فعّالة للغاية للتمييز بين الكلام الحقيقي والصوت الذي يتم إنشاؤه باستخدام "فويس بوكس"، بهدف التخفيف من هذه المخاطر المستقبلية المحتملة.