هل يتفوق تشات جي بي تي هيلث على الدكتور جوجل؟

على مدى العقدين الماضيين، كانت الخطوة الأولى الواضحة لأي شخص بدأ يشعر بأعراض طبية جديدة: البحث عنها عبر الإنترنت. وقد كانت هذه الممارسة شائعة جداً لدرجة أنها اكتسبت لقب "الدكتور جوجل". لكن الزمن يتغير، وأصبح العديد من الباحثين عن المعلومات الطبية يستخدمون الآن النماذج اللغوية الكبيرة. ووفقاً لشركة أوبن أيه آي، يطرح 230 مليون شخص استفسارات متعلقة بالصحة على تشات جي بي تي أسبوعياً.

تشات جي بي تي هيلث

هذا هو السياق المحيط بإطلاق منتج أوبن أيه آي الجديد الذي يحمل اسم "تشات جي بي تي هيلث" (ChatGPT Health)، والذي ظهر أول مرة في 7 يناير/كانون الثاني من هذا العام. وقد جاء في وقت مشؤوم: فقبل يومين، نشر الموقع الإخباري "إس إف غيت" (SFGate) قصة سام نيلسون، وهو مراهق توفي بجرعة زائدة العام الماضي بعد محادثات مكثفة أجراها مع تشات جي بي تي حول أفضل السبل للجمع بين مختلف الأدوية. في أعقاب كلا الخبرين، تساءل العديد من الصحفيين عن الحكمة من الاعتماد في الحصول على المشورة الطبية على أداة يمكن أن تسبب مثل هذا الضرر البالغ.

على الرغم من أن تشات جي بي تي هيلث موجود في علامة تبويب جانبية منفصلة عن بقية علامات التبويب في صفحة تشات جي بي تي، فإنه ليس نموذجاً جديداً بحد ذاته. بل هو أشبه بطبقة برمجية بينية تزود أحد نماذج أوبن أيه آي الموجودة مسبقاً بالإرشادات والأدوات التي يمكن أن يستخدمها لتقديم المشورة الصحية، بما في ذلك بعض الأدوات التي تسمح له بالوصول إلى السجلات الطبية الإلكترونية للمستخدم وبيانات تطبيقات اللياقة البدنية، إذا جرى منحه الإذن. ليس ثمة شك في أن تشات جي بي تي وغيره من النماذج اللغوية الكبيرة يمكن أن يرتكب أخطاء طبية، وتؤكد أوبن أيه آي أنها تهدف إلى أن يكون تشات جي بي تي هيلث بمثابة دعم إضافي، وليس بديلاً عن الطبيب. ولكن عندما يكون الأطباء غير متاحين أو غير قادرين على المساعدة، يلجأ الناس إلى البدائل.

النماذج اللغوية الكبيرة مقابل محركات البحث: من هو الطبيب الأفضل؟

يرى بعض الأطباء أن النماذج اللغوية الكبيرة تسهم في رفع الوعي الطبي. فقد يجد المريض العادي صعوبة في التعامل مع الكم الهائل من المعلومات الطبية المتاحة عبر الإنترنت، خاصة في التمييز بين المصادر العالية الجودة والمواقع الإلكترونية المحكمة ظاهرياً مع أنها مشكوك في صحتها، ولكن يمكن للنماذج اللغوية الكبيرة أن تتولى تنفيذ هذه المهمة نيابة عنه (المريض العادي)، على الأقل من الناحية النظرية. يقول الأستاذ المشارك في كلية الطب بجامعة هارفارد والمختص الممارس في التصوير الشعاعي، مارك سوتشي، إن علاج المرضى الذين بحثوا عن أعراضهم على موقع جوجل كان يتطلب "الكثير من معالجة قلق المرضى [و] الحد من المعلومات الخاطئة". ولكن الآن، كما يقول: "ترى مرضى حاصلين على تعليم جامعي أو ثانوي يطرحون أسئلة تقارب مستوى الأسئلة التي قد يطرحها طالب طب في بداية دراسته".

إن إطلاق تشات جي بي تي هيلث، وإعلان شركة أنثروبيك اللاحق عن إضافات تكميلية صحية جديدة لنموذجها كلود يشيران إلى أن عمالقة الذكاء الاصطناعي على استعداد متزايد للاعتراف بالاستخدامات المتعلقة بالصحة لنماذجهم وتشجيعها. ومن المؤكد أن مثل هذه الاستخدامات تنطوي على مخاطر، نظراً لميول النماذج اللغوية الكبيرة الموثقة جيداً إلى الموافقة على آراء المستخدمين واختلاق المعلومات بدلاً من الاعتراف بالجهل.

ولكن يجب أيضاً موازنة هذه المخاطر مع الفوائد المحتملة. ثمة تشابه هنا مع المركبات الذاتية القيادة: عندما ينظر صانعو السياسات فيما إذا كانوا سيسمحون لشركة "وايمو" بالعمل في مدينتهم، فإن المعيار الحاسم لا يتعلق بخلو سجل سياراتها من الحوادث، بل يتعلق بمدى تفوقها على السائقين البشر في تقليل المخاطر الحالية. إذا كان الدكتور تشات جي بي تي أفضل من الدكتور جوجل -تشير الأدلة الأولية إلى أن ذلك محتمل- فمن المحتمل أن يخفف العبء الهائل الناجم عن المعلومات الطبية الخاطئة والقلق الصحي غير الضروري اللذين تسببت بهما الإنترنت.

ومع ذلك، فإن تحديد مدى فعالية بوت دردشة مثل تشات جي بي تي أو كلود في مجال صحة المستهلك أمر صعب. تقول المسؤولة السريرية لعلوم البيانات والذكاء الاصطناعي في نظام الرعاية الصحية في مستشفى ماساتشوستس العام في بريغهام، دانيال بيترمان: "من الصعب للغاية تقييم بوت دردشة يقدم إجابات مفتوحة". تحقق النماذج اللغوية الكبيرة نتائج جيدة في اختبارات الترخيص الطبي، لكن هذه الاختبارات تستخدم أسئلة متعددة الاختيارات لا تعكس كيفية استخدام الناس لبوتات الدردشة للبحث عن المعلومات الطبية.

وقد حاولت الأستاذة المساعدة في علوم الإدارة والهندسة في جامعة واترلو، سيريشا رامبهاتلا، سد هذه الفجوة من خلال تقييم كيفية استجابة النموذج "جي بي تي 4 أو" لأسئلة امتحان الترخيص عندما لم يكن لديه إمكانية الوصول إلى قائمة الإجابات المحتملة. سجل الخبراء الطبيون الذين تولوا تقييم الإجابات نحو نصفها فقط على أنها صحيحة تماماً. لكن أسئلة الامتحانات المتعددة الخيارات مصممة لتكون صعبة بما فيه الكفاية بحيث لا تكشف خيارات الإجابة عنها بالكامل، ولا تزال هذه الأسئلة بعيدة جداً عن الأوامر النصية التي قد يقدمها المستخدم إلى تشات جي بي تي.

العالم يتغير

وجدت دراسة مختلفة، كانت قد اختبرت "جي بي تي 4 أو" على أوامر نصية أكثر واقعية أرسلها متطوعون من البشر، أن النموذج قدم إجابات صحيحة عن الأسئلة الطبية بنسبة بلغت نحو 85% من الحالات. عندما تحدثت إلى الأستاذ المشارك في جامعة ولاية بنسلفانيا الذي يدير مختبر الذكاء الاصطناعي المسؤول عن التحرر الاجتماعي والذي قاد الدراسة، أموليا ياداف، أوضح أنه شخصياً لم يكن من المعجبين بالنماذج اللغوية الكبيرة الطبية التي تتعامل مباشرة مع المرضى. لكنه يعترف صراحة بأنها من الناحية الفنية، تبدو قادرة على أداء المهمة، ففي النهاية، كما يقول، يخطئ الأطباء البشريون في تشخيص المرضى بنسبة تتراوح بين 10% و15% من الحالات. ويضيف: "إذا نظرت إلى الأمر بموضوعية، يبدو لي أن العالم سيتغير، شئت أم أبيت".

النماذج اللغوية الكبيرة: بديل أفضل وأدق

بالنسبة للأشخاص الذين يبحثون عن معلومات طبية عبر الإنترنت، يقول ياداف، يبدو أن مواقع الويب الطبية على الإنترنت أفضل من جوجل. كما توصل سوتشي، وهو مختص في التصوير الشعاعي، إلى أن النماذج اللغوية الكبيرة يمكن أن تكون بديلاً أفضل من البحث عبر الإنترنت عندما قارن إجابات جي بي تي 4 عن الأسئلة المتعلقة بالحالات الطبية المزمنة الشائعة بالمعلومات المقدمة في لوحة المعرفة في صفحة محرك البحث جوجل، وهو مربع المعلومات الذي يظهر أحياناً على الجانب الأيمن من نتائج البحث.

منذ أن ظهرت دراستا ياداف وسوتشي على الإنترنت، في النصف الأول من عام 2025، أطلقت أوبن أيه آي عدة إصدارات جديدة من جي بي تي، ومنطقي توقعنا أن يكون أداء الإصدار "جي بي تي 5.2" أفضل من الإصدارات التي سبقته.

عيوب متوقعة

لكن هاتين الدراستين تعانيان قيوداً مهمة: فهما تركزان على الأسئلة المباشرة والوقائعية، وتدرسان فقط التفاعلات القصيرة بين المستخدمين وبوتات الدردشة أو أدوات البحث عبر الإنترنت. قد تبرز بعض نقاط الضعف في بوتات الدردشة -أبرزها التملق والميل إلى الهلوسة- بنسبة أكبر في المحادثات المطولة ومع الأشخاص الذين يواجهون مشاكل أكثر تعقيداً. تشير الأستاذة في جامعة ملبورن التي تدرس التكنولوجيا والصحة، ريفا ليدرمان، إلى أن المرضى الذين لا يعجبهم التشخيص أو التوصيات العلاجية التي يتلقونها من الطبيب قد يبحثون عن رأي آخر من طبيب متخصص في الطب البشري، وإذا كان الطبيب المتخصص في الطب البشري متملقاً، فقد يشجعهم على رفض نصيحة الطبيب.

وقد وجدت بعض الدراسات أن النماذج اللغوية الكبيرة قد تصاب بالهلوسة وتظهر تملقاً مفرطاً عند تلقيها استفسارات متعلقة بالصحة. على سبيل المثال، أظهرت إحدى الدراسات أن النموذجين "جي بي تي 4" و"جي بي تي 4 أو" يقبلان برحابة صدر المعلومات الدوائية الخاطئة الواردة في سؤال المستخدم بل وينشرانها. وفي دراسة أخرى، عمد "جي بي تي 4 أو" في كثير من الأحيان إلى تلفيق تعريفات لمتلازمات وفحوص مخبرية زائفة مذكورة في استفسار المستخدم. ونظراً لوفرة التشخيصات والعلاجات المشكوك فيها طبياً التي تنتشر على الإنترنت، فإن هذه الأنماط من سلوكيات النماذج اللغوية الكبيرة يمكن أن تسهم في انتشار المعلومات الطبية المضللة، خاصة إذا كان الناس يرون أن هذه النماذج جديرة بالثقة.

وقد ذكرت أوبن أيه آي أن سلسلة نماذج جي بي تي 5 أقل تملقاً وعرضة للهلوسة بصورة ملحوظة من سابقاتها، لذلك قد لا تنطبق نتائج هذه الدراسات على تشات جي بي تي هيلث. كما عمدت الشركة أيضاً إلى تقييم النموذج الذي يشغل تشات جي بي تي هيلث بناء على إجاباته عن الأسئلة المتعلقة بالصحة، باستخدام مقياسها المعياري المسمى "هيلث بينش" (HealthBench) المتاح للعموم. إذ يكافئ المقياس المعياري النماذج التي تعبر عن عدم اليقين عندما يكون ذلك مناسباً، وتوصي المستخدمين بالتماس الرعاية الطبية عند الضرورة، وتمتنع عن دفع المستخدمين إلى الشعور بتوتر لا داعي له إذا أخبرتهم أن حالتهم أكثر خطورة مما هي عليه في الواقع. من المنطقي أن نفترض أن النموذج الذي يعتمد عليه تشات جي بي تي هيلث أظهر هذه السلوكيات في الاختبار، على الرغم من أن بيترمان تشير إلى أن بعض الأوامر النصية التي يتضمنها المقياس المعياري هيلث بينش قد أنشئت بواسطة نماذج لغوية كبيرة لا بواسطة مستخدمين من البشر، ما قد يحد من مدى جودة تمثيل المقياس المعياري للواقع الحقيقي.

تجنب التهويل مقابل السلبيات الأخرى

يبدو أن النموذج اللغوي الكبير الذي يتجنب التهويل يمثل تحسناً واضحاً مقارنة بالأنظمة التي تجعل الناس يقنعون أنفسهم بأنهم مصابون بالسرطان بعد بضع دقائق من التصفح. ومع استمرار تطور النماذج اللغوية الكبيرة، والمنتجات المبنية بالاعتماد عليها، من المرجح أن تزداد الميزات التي يتمتع بها الدكتور تشات جي بي تي على الدكتور جوجل. يعد إطلاق تشات جي بي تي هيلث بالتأكيد خطوة في هذا الاتجاه: فمن خلال الاطلاع على سجلاتك الطبية، يمكن لتشات جي بي تي الحصول على معلومات أشمل بكثير عن حالتك الصحية مقارنة بما يمكن أن يوفره أي بحث عبر محرك البحث جوجل، على الرغم من تحذير العديد من الخبراء من منح تشات جي بي تي هذا الوصول لأسباب تتعلق بالخصوصية.

حتى لو كان تشات جي بي تي هيلث وغيره من الأدوات الجديدة يمثل تحسناً ملموساً مقارنة بعمليات البحث على جوجل، فمن المحتمل أن يكون لها تأثير سلبي على الصحة عموماً. فكما أن المركبات الآلية، حتى لو كانت أكثر أماناً من السيارات التي يقودها البشر، قد تثبت أنها ذات أثر سلبي إذا شجعت الناس على تقليل استخدام وسائل النقل العامة، فإن النماذج اللغوية الكبيرة يمكن أن تقوض صحة المستخدمين إذا دفعت الناس إلى الاعتماد على الإنترنت بدلاً من الأطباء البشريين، حتى إن حسنت جودة المعلومات الصحية المتاحة عبر الإنترنت.

تقول ليدرمان إن هذه النتيجة معقولة؛ فقد وجدت في بحثها أن أعضاء المجتمعات الإلكترونية التي تركز على الصحة يميلون إلى وضع ثقتهم في المستخدمين الذين يجيدون التعبير عن أنفسهم، بغض النظر عن صحة المعلومات التي يشاركونها. نظراً لأن تشات جي بي تي يتواصل وفق أسلوب شخص فصيح، فقد يثق بعض الأشخاص به أكثر من اللازم، وربما لدرجة أنهم يستبعدون الطبيب من خياراتهم. ولكن من المؤكد أن النماذج اللغوية الكبيرة ليست بديلاً عن الطبيب البشري، حتى الآن على الأقل.