في الوقت الذي يتسارع فيه استخدام نماذج الذكاء الاصطناعي في التشخيص الطبي واقتراح العلاجات والتدخلات الطبية المناسبة وتحسين مستوى الرعاية الصحية وتقدير مدة الإقامة اللازمة في المستشفى، تتوالى الدراسات التي تكشف مخاطر التحيز المضمنة في هذه النماذج سواء كان تحيزاً على أساس العرق أو الجنس أو العمر أو غيره.
هناك العديد من العوامل التي تساهم في ظهور التحيزات غير المقصودة في نماذج الذكاء الاصطناعي؛ بدءاً من ضعف قابلية التفسير، إلى التحيز المتضمن في مجموعات البيانات، ووصولاً إلى تردد العديد من الباحثين والشركات في نشر مجموعات بياناتها وخوارزمياتها وشيفراتها البرمجية. نستعرض في هذه المقالة مجموعة من الدراسات التي تسلط الضوء على تحديات التحيز والعدالة التي تواجه استخدام تقنيات الذكاء الاصطناعي في الرعاية الصحية.
تحيز على أساس العرق في وحدات العناية المركزة
قام باحثون من جامعة ساوث كاليفورنيا في لوس أنجلوس بتقييم عدالة النماذج المدربة على (MIMC-IV)، وهي أكبر مجموعة بيانات للسجلات الطبية متاحة للعموم وتضم بيانات منزوعة الهوية لأكثر من 383,000 مريض دخلوا وحدة العناية المركزة أو قسم الطوارئ في مستشفى بيث إزرايل دياكونيس في بوسطن بين عامي 2008 و2019. وبعد عملية تنظيف البيانات واستبعاد بعض السجلات، ركز الباحثون على مجموعة فرعية تضم حوالي 43,000 سجل طبي لمرضى من الذكور والإناث، ومن مختلف الأصول العرقية، ويمتلكون تأميناً صحياً عاماً (ميدكيد أو ميديكير) أو تأميناً خاصاً.
وفي إحدى تجارب الدراسة (لم تخضع لمراجعة الأقران بعد)، قام الباحثون بتدريب نموذج تعلم عميق ليعطي توصية بمنح المريض علاجات باستخدام أجهزة التنفس (أكسجين أو جهاز تنفس اصطناعي أو غيرها). ووجدوا أن اقتراحات النموذج تختلف باختلاف المجموعة العرقية التي ينتمي إليها المريض؛ حيث كان المرضى ذوو البشرة السمراء وذوو الأصول الإسبانية أقل احتمالاً لوضعهم على أجهزة التنفس، وكانوا -في المتوسط- أكثر ترجيحاً لتلقّي فترة أقصر من العلاج.
علاوة على ذلك، يبدو أن حالة التأمين الصحي للمريض قد لعبت دوراً في اقتراح النموذج لعلاجه باستخدام أجهزة التنفس؛ حيث كان يميل النموذج إلى منح المرضى الذين يملكون تأميناً صحياً خاصاً -أي يتمتعون بتأمين سخي ويمكنهم تحمل تكاليف علاج أفضل- فترة علاج أطول باستخدام أجهزة التنفس.
وقد حذر الباحثون من وجود "عوامل إرباك متعددة" في مجموعة بيانات (MIMIC-IV)، التي ربما أدت إلى ظهور تحيز في توصيات نماذج الذكاء الاصطناعي. ودعوا إلى إلقاء نظرة فاحصة على استخدام هذه النماذج في مجال الرعاية الصحية حيث تكون حياة الناس على المحك، وأشاروا إلى ضرورة إجراء دراسات أعمق لمجموعات البيانات المستخدمة في تدريبها.
عنصرية عرقية تحرم المرضى من زراعة الكلى
توصلت دراسة نشرتها دورية الطب الباطني العام في أكتوبر الماضي إلى أن إحدى الخوارزميات المستخدمة في تقييم وظائف الكُلَى لدى المرضى كثيراً ما تبالغ في تقدير قيمة أحد مقاييس وظيفة الكلى لدى المرضى ذوي الأصول الأفريقية المصابين بمرض الكُلَى المزمن (CKD)، ما يؤدي في النهاية إلى تلقيهم رعاية أقل تخصصاً. وأوضحت أن الأمر يصل في بعض الأحيان إلى رفض وضع المرضى السود على قوائم انتظار عمليات زراعة الكُلَى، الأمر الذي يتسبب في تفاوت معدلات تلقي الرعاية الصحية عبر المجموعات العرقية المختلفة.
وقد أُجريت الدراسة على بيانات 56,845 مصاباً بمرض الكُلَى المزمن في مدينة بوسطن الأميركية، من بينهم 2,225 (3.9%) مريضاً من أصل أفريقي. وخلصت النتائج إلى أن أكثر من ثلث المرضى السود (743 مريضاً) كان سيتم تصنيفهم في مرحلة أكثر خطورة إذا تم استبعاد معامل العرق من المعادلة التي تعتمد عليها الخوارزمية، وبالتالي كان من الممكن أن يتلقوا رعاية طبية أفضل لو لم تكن الخوارزميات متحيزة عنصرياً، ولو تم تقدير نتائجهم باستخدام الصيغة نفسها المستخدمة مع المرضى البيض.
تحيز على أساس الجنس في تصنيف الصور الطبية
استكشف باحثون من جامعة كوين ماري العقبات التقنية أمام تدريب نماذج ذكاء اصطناعي غير متحيزة لاستخدامها في مجال الرعاية الصحية. وركز الباحثون دراستهم (التي لم تخضع لمراجعة الأقران بعد) على مدى عدالة النماذج في تصنيف الصور الطبية باستخدام مجموعة بيانات (CheXpert)، التي تضم أكثر من 224,000 صورة أشعة سينية للصدر مرفقة بوسوم. وقام الباحثون بتدريب شبكة عصبونية عميقة على التنبؤ بواحد من خمسة أمراض استناداً إلى صورة أشعة سينية واحدة.
استخدم الباحثون عدداً من التقنيات الهادفة إلى تقليل التحيز، لكنهم وجدوا أن النموذج كان أكثر تحيزاً عندما استخدموا هذه التقنيات. ورغم أن إحداها قد حقق عدالة أكبر بين الذكور والإناث، إلا أن ذلك كان على حساب زيادة التحيز على أساس العمر.
تفضيل عرقي في برامج الرعاية الصحية
وفقاً لدراسةٍ أجراها باحثون من جامعة كاليفورنيا بيركلي وتم نشرها في مجلة ساينس في عام 2019، فإن إحدى الخوارزميات -التي يستخدمها العديد من مقدمي الرعاية الصحية الأميركيين للتنبؤ بالمرضى الذين سيحتاجون رعاية طبية إضافية- قد قامت بمنح المرضى من ذوي البشرة الفاتحة امتيازات خاصة مقارنة بأقرانهم المرضى من ذوي البشرة السمراء؛ حيث نقلت الخوارزمية عملياً ذوي البشرة الفاتحة إلى مواقع أعلى في قائمة الانتظار لعلاجات خاصة بالحالات الصحية المعقدة مثل مشاكل الكلية أو السكري.
وقد تفحَّص الباحثون ما يقارب 50,000 سجل طبي من مستشفى أكاديمي كبير، ووجدوا أنه تم منح المرضى ذوي البشرة الفاتحة درجات أعلى من الخطورة -وبالتالي زادت فرص اختيارهم لرعاية صحية إضافية مثل اهتمام أكبر من قِبل كادر التمريض أو الحصول على مواعيد مخصصة- مقارنة بالمرضى ذوي البشرة السمراء الذين كانوا في الواقع يعانون من نفس درجة المرض. ووفقاً للحسابات التي أجراها الباحثون، فقد أدى هذا التحيز إلى خفض نسبة المرضى من ذوي البشرة السمراء الذين حصلوا على مساعدة إضافية إلى أكثر من النصف.
في حين أن الذكاء الاصطناعي يتمتع بالقدرة على إحداث ثورة في مجال الرعاية الصحية، وإحداث تحسين كبير في الطب وتشخيص الأمراض والطريقة التي نقدم بها الرعاية للمرضى باتباع أساليب فعالة وآمنة، إلا أن مشاكل مثل التحيز وضعف قابلية التفسير تفرض قيوداً لا يمكن تجاهلها أمام تبنيه على نطاق واسع، ليس في مجال الرعاية الصحية فحسب، وإنما في جميع المجالات الأخرى. ومن هنا تنبع أهمية الدراسات أعلاه في تسليط الضوء على هذه التحديات وفتح الباب أمام العمل لاكتشاف الحلول المناسبة لها.