دراسة: «تشات جي بي تي» أفضل من الأطباء في تشخيص الأمراض

3 دقيقة
كيف سيعمل الذكاء الاصطناعي مع البشر لمستقبل أفضل في الرعاية الصحية؟
حقوق الصورة: shutterstock.com/ Tridsanu Thopet

"تفوق واضح للذكاء الاصطناعي"

هل يمكن لاستخدام النماذج اللغوية الكبيرة (LLMs) أن يُحسّن من قدرة الأطباء على تشخيص الأمراض؟ حاولت دراسة أميركية حديثة الإجابة عن هذا السؤال من خلال اختبار بوت الدردشة "تشات جي بي تي" الذي طورته شركة "أوبن أيه آي". توصلت الدراسة إلى نتيجة غير متوقعة: تمكن الذكاء الاصطناعي من التفوق على الأطباء في التشخيص. واللافت أن البوت لم يتفوق فقط على الأطباء الذين استخدموا أدوات التشخيص التقليدية، بل تفوق حتى على أولئك الذين استعانوا به كأداة مساعدة.

تضمنت الدراسة التي نشرت نتائجها في دورية جاما (JAMA Network Open) تجربة سريرية عشوائية شملت 50 طبيباً يعملون في مستشفيات أميركية كبرى، بينهم 26 طبيباً معالجاً و24 طبيباً مقيماً. تم تقسيم الأطباء إلى مجموعتين: الأولى سُمح لها باستخدام "تشات جي بي تي" لدعم قراراتهم، بينما اعتمدت المجموعة الثانية على الموارد التقليدية فقط، مثل المراجع الطبية والخبرات السابقة. وقد كشفت نتائج التجربة أن قلة قليلة من هؤلاء الأطباء تعرف كيفية استغلال قدرات بوتات الدردشة، بينما لم يتمكن معظمهم من الاستفادة من أنظمة الذكاء الاصطناعي بشكل كامل.

شارك عدد كبير من الباحثين في هذه الدراسة، من بينهم باحثون في جامعات أميركية مرموقة مثل ستانفورد وهارفارد ومينيسوتا. وقد أظهرت النتائج التي توصلوا إليها أن إيمان الأطباء الراسخ بأفكارهم وخبراتهم يدفعهم أحياناً للتمسك بتشخيصاتهم وتجاهل المقترحات التي تقدمها أنظمة الذكاء الاصطناعي، حتى عندما تقدم تشخيصاً أكثر دقة.

اقرأ أيضاً: كيف أثارت أداة النسخ الخاصة بشركة أوبن أيه آي مخاوف الأطباء والمستشفيات؟

الذكاء الاصطناعي لم يعزز أداء الأطباء

في التجربة، التي أُجريت خلال الفترة من 29 نوفمبر إلى 29 ديسمبر 2023، باستخدام مؤتمرات الفيديو والمقابلات الشخصية، سجلت النسخة المدفوعة من بوت الدردشة "تشات جي بي تي"، المعتمدة على النموذج "جي بي تي-4"، متوسط ​​دقة بلغ 90% عند تشخيص الأمراض بناء على التقارير الطبية، مع شرح أسباب التشخيص.

على الجانب الآخر، حصل الأطباء الذين سُمح لهم باستخدام البوت على متوسط ​​درجات بلغ 76%. أما أولئك الذين اعتمدوا على الموارد التقليدية فقط دون استخدام "تشات جي بي تي" فقد حصلوا على متوسط ​​درجات بلغ 74%.

وتشير هذه النتائج إلى أن استخدام الذكاء الاصطناعي لم يعزز أداء الأطباء بشكل ملحوظ في الحالات السريرية الصعبة، حيث ارتفعت نسبة الدقة بمقدار 2% فقط، بينما تفوق أداء "تشات جي بي تي" على مجموعتي الأطباء بشكل عام بنسبة تصل إلى 16%.

نتائج صادمة للباحثين

أظهرت البيانات أن الوقت المستغرق في تشخيص الحالات لم يختلف بين الأطباء الذين استعانوا بالذكاء الاصطناعي وأولئك الذين لم يستخدموه. لذلك، يرى الباحثون أن ثمة حاجة إلى إجراء دراسات مستقبلية ذات أحجام عينات أكبر لتقييم ما إذا كان الأطباء الذين لديهم خبرة في استخدام النماذج اللغوية سيستغرقون وقتاً أقل في التشخيص.

ومن اللافت أيضاً أن دراسات الحالة التي استخدمت في هذه التجربة استندت إلى مرضى حقيقيين وسياقات غير منشورة سابقاً، وبالتالي فإنها لم تُستخدم لتدريب النموذج. وقد اختيرت هذه الحالات لضمان عدم تمتع الذكاء الاصطناعي بأي ميزة تفضيلية على الأطباء.

يصف الدكتور آدم رودمان، خبير الطب الباطني والذي ساعد في تصميم الدراسة، النتائج بأنها كانت صادمة. وقد دفعته هذه النتائج إلى التعمق في البيانات ومراجعة السجلات الفعلية للرسائل المتبادلة بين الأطباء و"تشات جي بي تي"، لفهم السبب وراء عدم تحقيق أولئك الذين استخدموا بوت الدردشة نتائج أفضل.

وفي تصريحات لصحيفة "نيويورك تايمز"، قال رودمان إنه اكتشف أن الأطباء لم يقتنعوا في الكثير من الحالات بما يقوله البوت عندما تعارض مع تشخيصاتهم. وأضاف أنهم فضلوا التمسك بأفكارهم الخاصة عن التشخيص الصحيح.

اقرأ أيضاً: باحثون من كاوست يطوّرون نموذج ذكاء اصطناعي لتشخيص الأمراض الجلدية

قدرات غير مستغلة

يشير الدكتور جوناثان تشين، وهو طبيب وعالم كمبيوتر في جامعة ستانفورد وأحد مؤلفي الدراسة، إلى مشكلة أخرى تتعلق بعدم قدرة العديد من الأطباء على استغلال الإمكانات الكاملة للذكاء الاصطناعي. عندما راجع تشين سجلات دردشة، لاحظ أن الأطباء يعاملون "تشات جي بي تي" كما لو أنه محرك بحث، حيث طرحوا عليه أسئلة مثل: هل تليف الكبد عامل خطر للإصابة بالسرطان؟ أو ما هي التشخيصات المحتملة لألم العين؟

ويضيف تشين، في تصريحات لـ"نيويورك تايمز": "لم يدرك سوى عدد قليل من الأطباء أن باستطاعتهم نسخ ولصق تاريخ الحالة بالكامل في بوت الدردشة، وطلب إجابة شاملة على السؤال بأكمله".

مع التطور السريع لأنظمة الذكاء الاصطناعي، ربما يتعين على العاملين في القطاع الطبي السعي لتحقيق توازن بين الخبرة البشرية والقوة الحاسوبية. لكن الباحثين يشددون على أنه لا ينبغي تفسير نتائج هذه الدراسة باعتبارها دعوة إلى استخدام النماذج اللغوية الكبيرة للتشخيص بشكل مستقل دون إشراف الطبيب. وأكدوا أنه على الرغم من الأداء الواعد الذي أظهرته هذه النماذج في الاختبارات الطبية، لا تزال هناك حاجة إلى المزيد من التطوير لدمجها على نحو فعال في الممارسة السريرية.

المحتوى محمي