إلغاء التعلم الآلي: الحل الجديد لمنع استنساخ الأصوات في الذكاء الاصطناعي

4 دقيقة
برامج تحويل النص إلى كلام بالذكاء الاصطناعي

يمكن لتقنية معروفة باسم "إلغاء التعلم الآلي" أن تعلم نماذج الذكاء الاصطناعي كيفية نسيان أصوات معينة، وهي خطوة مهمة في وقف ظهور التزييف الصوتي العميق، حيث يجري استنساخ صوت شخص ما لتنفيذ عمليات احتيال أو عمليات خداع.

لقد أحدثت التطورات التي تحققت حديثاً في مجال الذكاء الاصطناعي ثورة في جودة تكنولوجيا تحويل النص إلى كلام، حيث أصبح بإمكان المستخدمين إعادة إنشاء مقطع صوتي مقنع انطلاقاً من مقطع نصي، مع أنماط ونبرات صوتية طبيعية، بدلاً من الاضطرار إلى الاكتفاء بصوت آلي يقرأ النص كلمة تلو الأخرى. يقول الأستاذ في جامعة سونغ كيون كوان في كوريا الجنوبية والمؤلف المشارك في ورقة بحثية جديدة توضح أحد التطبيقات الأولى لإلغاء التعلم الآلي في توليد الكلام، جونغ هوان كو: "يمكن إنتاج صوت أي شخص من جديد أو استنساخه بالاعتماد على مقطع مسجل من صوته مدته بضع ثوان فقط".

اقرأ أيضاً: الذكاء الاصطناعي المتعدد الوسائط: ثورة في تفاعل المستخدم بين الصوت والصورة والنص

ما أهمية ميزة إلغاء التعلم الآلي؟

استخدمت الأصوات المنسوخة في عمليات الاحتيال والتضليل والمضايقات. أراد كو، الذي يبحث في معالجة الصوت، ومعاونوه منع هذا النوع من انتحال الهوية. ويقول: "بدأ الناس يطالبون بسبل تتيح لهم رفض عمليات التوليد المجهولة لأصواتهم دون موافقتهم".

عادة ما تحكم شركات الذكاء الاصطناعي قبضتها على نماذجها للحد من إساءة الاستخدام. على سبيل المثال، إذا طلبت من تشات جي بي تي أن يعطيك رقم هاتف شخص ما أو تعليمات لتنفيذ عمل غير قانوني، فمن المرجح أن يخبرك أنه لا يستطيع المساعدة. ومع ذلك، كما أظهر العديد من الأمثلة على مر الزمن، يمكن لهندسة الأوامر النصية أو الضبط الدقيق للنموذج دفع هذه النماذج إلى قول أشياء لا يفترض بها أن تقولها. قد تكون المعلومات غير المرغوب فيها لا تزال كامنة في مكان ما داخل النموذج بحيث يمكن الوصول إليها باستخدام التقنيات الصحيحة.

في لوقت الحاضر، تميل الشركات إلى التعامل مع هذه المشكلة من خلال تطبيق حواجز الأمان؛ وتتمثل الفكرة في التحقق مما إذا كانت الأوامر النصية أو إجابات الذكاء الاصطناعي تحتوي على مواد غير مسموح بها. بدلاً من ذلك، تعتمد تقنية إلغاء التعلم الآلي على التساؤل عما إذا كان يمكن جعل الذكاء الاصطناعي ينسى معلومة لا تريد الشركة أن يعرفها. تأخذ هذه التقنية نموذجاً مسرباً وبيانات التدريب المحددة المراد تنقيحها وتستخدمها لإنشاء نموذج جديد، وهو عملياً نسخة من النموذج الأصلي الذي لم يتعلم ذلك الجزء من البيانات. على الرغم من أن إلغاء التعلم الآلي يرتبط بتقنيات قديمة في أبحاث الذكاء الاصطناعي، فإنه لم يطبق على نماذج لغوية كبيرة إلا في العامين الماضيين.

وترى طالبة الماجستير في جامعة سونغ كيون كوان، جينجو كيم، التي عملت على الورقة البحثية مع كو وآخرين، أن حواجز الأمان هي بمثابة أسوار حول البيانات السيئة، وقد وضعت لمنع المستخدمين من الوصول إليها. تقول كيم: "لا يمكنك اختراق الحواجز، لكن بعض المستخدمين سيظلون يحاولون تجاوزها بشتى الطرق". لكن إلغاء التعلم، كما تقول، يحاول إزالة البيانات السيئة تماماً، بحيث لا يبقى وراء الحواجز أي شيء على الإطلاق.

تحديات تطبيق الطريقة تكمن في تصميم أنظمة تحويل النص إلى كلام

مع ذلك، فإن الطريقة التي صممت بها الأنظمة الحالية لتحويل النص إلى كلام تعقد هذا الأمر بعض الشيء. حيث تستخدم هذه النماذج التي يطلق عليها اسم نماذج "من دون أمثلة مسبقة" أمثلة من كلام الأشخاص لتتعلم إعادة إنشاء أي صوت، بما في ذلك الأصوات غير الموجودة في مجموعة التدريب، فمع وجود بيانات كافية، يمكن لهذه النماذج أن تجيد التقليد عند تزويدها ولو بعينة صغيرة من صوت شخص ما. لذا فإن "إلغاء التعلم" يعني أن النموذج لا يحتاج فقط إلى "نسيان" الأصوات التي تدرب عليها، بل عليه أيضاً أن يتعلم عدم تقليد أصوات معينة لم يسبق له أن تدرب عليها. ومع ذلك كله، لا يزال النموذج في حاجة إلى تحسين أدائه مع الأصوات الأخرى.

اقرأ أيضاً: هل يمكن للمساعِدات الصوتية أن تفهم اللغات واللهجات كلّها الموجودة في العالم؟

كيف تعمل هذه الطريقة؟

لتوضيح كيفية الحصول على هذه النتائج، عمدت كيم إلى تعليم إصدار مصمم من جديد من النموذج فويس بوكس (VoiceBox)، وهو نموذج لتوليد الكلام من شركة ميتا، أنه عندما يطلب منه إنتاج عينة نصية بأحد الأصوات المراد تنقيحها، يجب أن يستجيب بدلاً من ذلك بأن ينتج صوتاً عشوائياً. ولجعل هذه الأصوات واقعية، "يعلم" النموذج نفسه باستخدام أصوات عشوائية من ابتكاره.

ووفقاً للنتائج التي توصل إليها الفريق، والتي كان من المقرر عرضها خلال المؤتمر الدولي للتعلم الآلي، فإن حث النموذج على تقليد صوت "نسيه" يعطي نتائج -وفقاً لأحدث الأدوات التي تقيس تشابه الأصوات- تقلد الصوت المنسي بفعالية أقل بنسبة تزيد على 75% مقارنة بما كان النموذج يفعل من قبل. عملياً، هذا يضفي على الصوت الجديد اختلافاً واضحاً. لكن النسيان له ثمنه أيضاً: فدقة النموذج في تقليد الأصوات المسموح بها تراجعت بنحو 2.8%. على الرغم من صعوبة تفسير هذه النسب بعض الشيء، فإن العرض التوضيحي الذي نشره الباحثون عبر الإنترنت يقدم نتائج مقنعة للغاية، سواء فيما يتعلق بمدى نسيان المتحدثين المحجوبين أو مدى تذكر البقية. فيما يلي عينة من العرض التوضيحي.

 

عينة صوتية لمتحدث من المفترض أن ينساها النموذج.

الصوت المولد بعد تحويل النص إلى كلام بواسطة النموذج الأصلي باستخدام العينة الصوتية الأولى أعلاه بصفتها أمراً نصياً.

الصوت المولد بعد تحويل النص إلى كلام باستخدام الأمر النصي نفسه، ولكن هذه المرة بواسطة النموذج بعد أن نسي صوت المتحدث.  

يقول كو إن عملية إلغاء التعلم قد تستغرق "عدة أيام"، اعتماداً على عدد المتحدثين الذين يرغب الباحثون في أن ينساهم النموذج. كما تتطلب طريقتهم أيضاً مقطعاً صوتياً مدته خمس دقائق تقريباً لكل متحدث يراد نسيان صوته.

في عملية إلغاء التعلم الآلي، غالباً ما تستبدل أجزاء من البيانات بعشوائية بحيث لا يمكن إعادتها إلى حالتها الأصلية باستخدام الهندسة العكسية. في هذه الورقة البحثية، كانت العشوائية بالنسبة إلى المتحدثين المنسيين عالية جداً، وهي علامة، كما يزعم المؤلفون، على أن النموذج قد نسيهم حقاً.

العشوائية مقياساً لنجاح إلغاء التعلم 

تقول طالبة الدكتوراة في جامعة نورث كارولاينا في مدينة تشابل هيل والباحثة في مجال إلغاء التعلم الآلي، فايديهي باتيل: "لقد رأيت باحثين يحسنون العشوائية في سياقات أخرى. وهذا أحد الأعمال الأولى التي رأيتها في مجال الكلام". وقد كان من المقرر أن تنظم باتيل ورشة عمل حول إلغاء التعلم الآلي تابعة للمؤتمر، إلى جانب تقديمها بحث إلغاء التعلم الصوتي فيه.

تشير باتيل إلى أن عملية إلغاء التعلم الآلي بحد ذاتها تنطوي على مفاضلات ملازمة بين الكفاءة والنسيان لأن العملية قد تستغرق وقتاً، وقد تضعف قابلية استخدام النموذج النهائي. تقول باتيل: "لا شيء مجاني، عليك التنازل عن شيء ما دائماً".

ربما لا تزال عملية إلغاء التعلم الآلي في مرحلة مبكرة جداً بالنسبة إلى شركة ميتا، على سبيل المثال، لتضمين أساليب كو وكيم في النموذج فويس بوكس. ولكن من المرجح أن يكون هناك اهتمام في هذا المجال. وتجري باتيل بحثاً عن إلغاء التعلم الآلي لصالح شركة جوجل ديب مايند هذا الصيف، وبينما لم تعلق ميتا على استفساراتنا، فقد ترددت فترة طويلة في إصدار فويس بوكس للجمهور الأوسع نطاقاً لأنه عرضة لإساءة الاستخدام إلى حد كبير.

يبدو فريق إلغاء تعلم الصوت متفائلاً بأن عمله قد يرقى يوماً ما إلى مستوى التطبيق العملي. يقول كو: "في التطبيقات الحقيقية، نحتاج إلى حلول أسرع وأكثر قابلية للتطوير. ونحن نسعى جاهدين لإيجادها".

المحتوى محمي