يُعدّ قطاع الرعاية الصحية من أكثر القطاعات تبنياً لتكنولوجيا الذكاء الاصطناعي، حيث تساعد على زيادة الكفاءة والدقة وخفض التكاليف. ومع ذلك، دون التحقق جيداً من الأدوات التي تستخدمها، فقد يكون الأمر محفوفاً بالمخاطر. وهذا ما ظهر مع أداة تحويل الصوت إلى نص "ويسبر" التابعة لشركة أوبن أيه آي، التي أظهر تحقيق حديث أنها تميل إلى اختلاق المعلومات وإنشائها، أو ما يُعرف بالهلوسة. فما هي الآثار المترتبة على سلامة المرضى؟ ولماذا تميل الأداة إلى الهلوسة في المقام الأول؟
استخدام أدوات الذكاء الاصطناعي لا يزال محل شك في القطاعات الحساسة
عند إصدار ويسبر (Whisper) عام 2022، وهي أداة مدعومة بالذكاء الاصطناعي التوليدي، ذكرت شركة أوبن أيه آي أن الأداة قد اقتربت من مستوى قوة التفكير البشري في دقة النسخ الصوتي باللغة الإنجليزية. ومع ذلك وفقاً لتحقيق أجرته وكالة أسوشيتد برس (AP) الإخبارية ونشرته في نهاية شهر أكتوبر الماضي، فإن الأداة لديها ميل كبير لاختلاق المعلومات، حيث أجرت الوكالة مقابلات مع أكثر من 12 مهندساً ومطوراً وباحثاً في مجال الذكاء الاصطناعي، وجدوا أن الأداة تختلق نصوصاً لم يقلها المتحدثون، وهي الظاهرة المرافقة لنماذج الذكاء الاصطناعي والمعروفة بالهلوسة.
وتأتي أهمية هذا التحقيق بالنظر إلى مدى انتشار الأداة عبر مختلف القطاعات، بما فيها القطاع الصحي، حيث تم دمجها في بعض إصدارات بوت الدردشة تشات جي بي تي والتي تخدم آلاف الشركات في مختلف أنحاء العالم. علاوة على ذلك، في شهر سبتمبر وحده تم تنزيل الأداة أكثر من 4 ملايين مرة من منصة شركة الذكاء الاصطناعي هاغينغ فيس (Hugging Face) مفتوحة المصدر. حيث تُعدّ الأداة من أشهر نماذج التعرف إلى الكلام مفتوحة المصدر، وهي مدمجة في مجال واسع من التطبيقات تقريباً، بدءاً من مراكز الاتصال إلى المساعِدات الصوتية.
وبالعودة إلى التحقيق، فإن خبيراً من جامعة ميتشغان أجرى دراسة عن نصوص الاجتماعات العامة المنشأة، قال إنه وجد هلوسة في 8 من كل 10 نسخ صوتية فحصها قبل أن يبدأ بمحاولة تحسين النموذج، بينما ذكر مطور برمجيات آخر بعد اختبار 26 ألف نسخة، أن جميعها تحتوي على معلومات مخترعة، بعضها تتضمن تعليقات عنصرية وخطاباً عنيفاً وحتى علاجات طبية متخيلة.
بينما اكتشف مهندس آخر في البداية الهلوسة في نحو نصف أكثر من 100 ساعة من النسخ قد حللها، وهو ما يمثّل مشكلة كبيرة بالنظر إلى أن الأداة تُستخدم في عددٍ كبيرٍ من القطاعات في مختلف أنحاء العالم لترجمة المقابلات ونسخها وإنشاء ترجمات لمقاطع الفيديو.
اقرأ أيضاً: أفضل 3 أدوات تدعم اللغة العربية لتحويل المقاطع الصوتية إلى نص
المشكلة تمتد إلى ما هو أبعد من قطاع الرعاية الصحية
وفقاً للخبراء الذين أجروا الاختبارات، فإن الأمر الأكثر إثارة للقلق هو اعتماد المراكز الطبية الأداة بشكلٍ أساسي لنسخ استشارات المرضى مع الأطباء، على الرغم من تحذيرات شركة أوبن أيه آي بتوخي الحذر عند استخدامها في المجالات العالية الخطورة، كما حذّر الخبراء من أن مرضى الصم ومَن يعانون ضعفاً في السمع قد يتأثرون بشكلٍ خاص بالنسخ النصية الخاطئة التي تولّدها، حيث لن تكون لديهم طريقة لمعرفة ما إذا كان الصوت في النسخة الطبية دقيقاً أم لا.
ووفقاً للتحقيق الذي أجرته الوكالة، تستمر المشكلات حتى في العينات الصوتية القصيرة المسجلة جيداً، حيث كشفت دراسة حديثة عن وجود 187 هلوسة في أكثر من 13 ألف مقطع صوتي واضح فحصه الخبراء، ما حدا بالباحثين إلى الاعتقاد بأن السير في إجراء المزيد من الاختبارات على ملايين التسجيلات الصوتية قد يؤدي إلى اكتشاف عشرات الآلاف من النسخ النصية التي تحتوي على هلوسة قد تُنشئها الأداة.
كما تمتد المشكلات المحتملة في أداة ويسبر إلى ما هو أبعد من قطاع الرعاية الصحية، حيث درس باحثون من جامعة كورنيل وجامعة فيرجينيا آلاف العينات الصوتية ووجدوا أن الأداة تُضيف محتوى عنيفاً غير موجود وتعليقاً عنصرياً إلى النصوص، ووجد الباحثون أن 1% من العينات تضمنت عبارات أو جمل هلوسة كاملة لم تكن موجودة بأي شكل من الأشكال في الصوت الأساسي، وأن 38% منها تضمنت عبارات صريحة مثل تصريح العنف أو اختلاق ارتباطات غير دقيقة.
لماذا تقوم أداة النسخ الصوتي ويسبر Whisper بالهلوسة؟
تعتمد أداة النسخ الصوتي ويسبر على تقنية مصممة للتنبؤ بالرمز التالي الأكثر احتمالاً (قطعة من البيانات) الذي يجب أن يظهر بعد سلسلة من الرموز التي يقدّمها المستخدم. على سبيل المثال، في بوت الدردشة تشات جي بي تي تأتي رموز الإدخال في شكل مطالبة نصية، أمّا في حالة أداة النسخ الصوتي ويسبر يكون الإدخال عبارة عن بيانات صوتية مميزة، ومن ثَمَّ فإن الناتج النصي من ويسبر هو تنبؤ بما هو الأكثر احتمالاً وليس ما هو الأكثر دقة.
حيث إن الدقة في المخرجات المستندة إلى المحولات تتناسب عادة مع وجود بيانات دقيقة ذات صلة في مجموعة البيانات التدريبية، ولكن لا يمكن ضمانها مطلقاً، فإذا حدثت حالة لا توجد فيها معلومات سياقية كافية في شبكتها العصبونية حتى تتمكن من إجراء تنبؤ دقيق حول كيفية نسخ مقطع صوتي معين، فسوف تعتمد الأداة على ما تعرفه عن العلاقات بين الأصوات والكلمات التي تعلمتها من بيانات التدريب الخاصة به.
اقرأ أيضاً: ما الحل إذا نفدت بيانات تدريب الذكاء الاصطناعي؟
علاوة على ذلك، توجد ظاهرة تتميز بها نماذج الذكاء الاصطناعي تأثرت بها ويسبر، وهي فرط التخصيص أو فرط الملاءمة Overfitting))، حيث من المرجّح أن تعيد إنتاج المعلومات (في هذه الحالة النص الموجود في النسخ الصوتية) التي تتدرب عليها بشكلٍ متكرر في بيانات التدريب في المخرجات. على سبيل المثال، في الحالات التي تواجه فيها "ويسبر" صوتاً رديء الجودة في الملاحظات الطبية، سينتج ما تتوقعه شبكتها العصبوية بأنه المخرج الأكثر احتمالية حتى لو كان غير صحيح.
أمّا في حالات أخرى، فقد وجد الباحثون أن ويسبر تبدو وكأنها تعتمد على سياق المحادثة لملء ما ينبغي أن يأتي بعد ذلك، ما قد يؤدي إلى مشكلات، لأن بيانات التدريب الخاصة بها قد تتضمن تعليقاً عنصرياً أو معلومات طبية غير دقيقة. على سبيل المثال، إذا ظهر العديد من الأمثلة في بيانات التدريب لمتحدثين يقولون عبارة: (طعام صحي عضوي) فعندما تواجه ويسبر عينة صوتية متكررة تقول: (طعام صحي {وجود صوت غير واضح})، فمن المرجح أن تملأ النسخ الناتجة بكلمة (عضوي) تلقائياً، حتى لو لم يكن ذلك صحيحاً أو متسقاً.
كيف ردت شركة أوبن أيه آي على التحقيق؟ وبماذا ينصح الخبراء لإصلاح المشكلة؟
لم تنكر شركة أوبن أيه آي مشكلة الهلوسة في أداة النسخ الصوتي ويسبر، بل ذكرت مسبقاً هذه الظاهرة بالذات، حيث صرّحت: "نظراً إلى أن النماذج يتم تدريبها بطريقة ضعيفة الإشراف باستخدام بيانات صوتية تحتوى على ضوضاء واسعة النطاق، فقد تتضمن التنبؤات نصوصاً لا تتضمنها التسجيلات الصوتية (أي الهلوسة)"، وأضافت: "نفترض أن هذا يحدث لأن النماذج ونظراً إلى معرفتها العامة باللغة، تجمع بين محاولة التنبؤ بالكلمة التالية في الصوت ومحاولة نسخ الصوت نفسه".
وبهذا المعنى فإن أداة "ويسبر" ستعرف شيئاً عن محتوى ما يُقال وتتتبع سياق المحادثة، ما قد يؤدي إلى محتويات في الإخراج النصي لم تكن موجودة في الصوت الأصلي، وهو ما لاحظه العديد من المستخدمين، حيث كثيراً ما تذكر الأداة في نصوصها المستخرجة عبارات مثل: (شكراً على المشاهدة) أو (سجّل الإعجاب والاشتراك) عند مطالبتها بالنسخ من تسجيلات تحتوى على ضوضاء أو غير واضحة، وهذا يعود بحسب الباحثين إلى تدريب الأداة مسبقاً على آلاف الساعات من الترجمات المكتوبة في مقاطع فيديو يوتيوب.
اقرأ أيضاً: كيف استخدمت أوبن أيه آي فيديوهات يوتيوب دون إذن لتدريب نماذجها؟
لذا يوصي الباحثون من الناحية النظرية بتحديث الأداة وتدريبها على اختيار مناطق الصوت غير الواضحة، ووضع علامة على الكلمة المستخرجة في النصوص، حتى يتمكن الإنسان من التحقق يدوياً من مثل هذه الكلمات لاحقاً للتأكد من دقتها.
استمرار استخدام الأداة في القطاعات الحساسة مثل قطاع الرعاية الصحية، قد يجعل الكثير من المرضى يواجهون عواقب وخيمة في حالة اختلاق الأداة تشخيصاً خاطئاً، خاصة وأن الأداة تمحو التسجيل الأصلي تلقائياً لأسباب تتعلق بخصوصية البيانات وفقاً لشركة نابلا (Nabla) التي تطوّر أداة مدعومة بنموذج ويسبر تُستخدم بشكلٍ واسع في القطاع الصحي، ما يجعل مقارنة التسجيل مع النص لاكتشاف الأخطاء المحتملة مستحيلاً.