يويانج جو: دروس من نجم علوم البيانات في الوباء

8 دقائق
نموذج للتوقعات حول كوفيد-19
الصورة تقدمة: إم إس تك

يرى عالم البيانات يويانج جو نفسه واقعياً، كما يقدم نفسه على حسابه على تويتر: "مقدم وجهات النظر غير المتحيزة. واقعي".

لاحظ جو التفاوت الكبير والعشوائي في توقعات كوفيد-19 في الربيع الفائت، فقد توقع أحد النماذج مليوني وفاة بحلول الصيف، في حين توقع نموذج آخر وقوع 60,000 وفاة، ما دفع جو إلى التساؤل عما إذا كانت التوقعات أفضل ما يمكن أن تقدمه النماذج. وهكذا، قرر أن يجرب تصميم نموذج لكوفيد-19 بنفسه. ويقول جو من شقته في مانهاتن: "كان هدفي الوحيد بناء أفضل وأدق نموذج ممكن. من دون أي افتراضات من قبيل ’إذا حصل هذا‘ و’إذا حصل ذاك‘. ومن دون أي ’حالات شرطية‘ محددة مسبقاً. ولا يهم فعلاً ما هي السيناريوهات. لقد أردت ببساطة أن أقول للجميع: ’هذا هو التوقع الأكثر احتمالية أو واقعية لما سيحدث‘".

وخلال أسبوع واحد، تمكن من بناء نموذج تعلم آلي، وأطلق موقعه الإلكتروني الخاص به لتوقعات كوفيد-19. قام جو بتشغيل النموذج كل يوم -استغرقت العملية حوالي الساعة على حاسوبه المحمول- ونشر توقعات وفيات كوفيد-19 في 50 ولاية أميركية، و34 مقاطعة، و71 دولة.

وبحلول نهاية أبريل، أصبح محط انتباه، وفي نهاية المطاف، بدأ الملايين بزيارة موقعه يومياً. لاحظ البروفسور كارل بيرجستروم -المختص بالبيولوجيا في جامعة واشنطن- هذا الموقع، وعلق على تويتر قائلاً إن نموذج جو كان "يعطي توقعات تضاهي أفضل ما رآه حتى الآن".

"قد أشعر بالشك بعض الشيء إزاء التعلم الآلي. ولكن في هذه الحالة، لا تدعوا المصطلح يخدعكم ويجعلكم تقللون من أهمية هذا العمل"، كما أورد بيرجستروم في تغريدته.

تخرج جو من إم آي تي، ويحمل درجة الماجستير في الهندسة الكهربائية وعلوم الحاسوب (إضافة إلى درجة في الرياضيات)، كما يبلغ من العمر 27 عاماً، وقد كان يعمل على تأسيس شركة ناشئة في مجال تحليلات المنافسات الرياضية عندما ظهر الوباء. ولكنه أوقف العمل على هذه الشركة عندما دخلت الدوريات الرياضية الكبرى مرحلة الإغلاق. وعندها، وبمجرد عملية بحث على جوجل عن مصطلح "علم الأوبئة"، بدأ رحلته نحو نمذجة كوفيد-19.

ويقول: "لم تكن لدي أدنى خبرة في مجال نمذجة الأمراض المعدية". غير أنه كان مسلحاً ببضع سنوات من الخبرة كعالم بيانات في المجال المالي؛ حيث كان يعمل مع نماذج إحصائية تقوم -بناء على افتراضات إحصائية معينة- بتحليل البيانات وتقديم التوقعات حول سعر سهم ما في المستقبل على سبيل المثال.

يضيف جو: "تبين أن أغلب عمليات نمذجة الأمراض المعدية تعتمد بشكل أساسي على النمذجة الإحصائية". إضافة إلى ذلك، فإن الدقة المطلوبة لتحقيق الأرباح في المجال المالي كانت عاملاً إيجابياً ساعده في مجال نمذجة الأمراض المعدية. ويقول: "إذا لم تتمكن من بناء نموذج دقيق في المجالات المالية، فسوف تفقد عملك إلى الأبد". وعلى العكس من ذلك، فإن العمل الأكاديمي -على الأقل، من وجهة نظر جو- لا يهدف إلى بناء نماذج دقيقة بقدر ما يركز على نشر الأبحاث العلمية وتقديم المعلومات اللازمة لوضع السياسات العامة. ويضيف: "هذا لا يعني أن الأكاديميين لا يبنون نماذج دقيقة، بل أنهم لا يركزون على الدقة بوجه خاص".

يجمع نموذج جو ما بين التعلم الآلي ونظام كلاسيكي لمحاكاة الأمراض المعدية يحمل اسم نموذج سيير، الذي يأخذ بعين الاعتبار الأفراد الذين يمكن أن يصابوا بالعدوى، والذين تعرضوا لها، والمصابين بها، والمتعافين من المرض، والذين توفوا ويجب إزالتهم من التعداد السكاني.

يعتمد عنصر سيير على دخل من مجموعة مصطنعة من المعاملات، وهي عبارة عن مجالات لأفضل تقديرات ممكنة للمتحولات الأساسية، مثل رقم التزايد الأساسي (أي معدل ظهور الإصابات الجديدة في مجموعة سكانية قابلة للإصابة بالكامل في بداية الانتشار، قبل إجراءات التدخل أو ظهور المناعة)، ومعدل الإصابات، وتاريخ الحجر، وتاريخ إنهاء الحجر، ورقم التزايد الفعال (معدل ظهور إصابات جديدة بعد بعض الإجراءات). أما من حيث المخرجات، يقوم محاكي سيير أولاً بحساب الإصابات مع مرور الزمن، ومن ثم يحسب الوفيات (وذلك بضرب الإصابات بمعدل الإصابات المميتة).

بعد ذلك، تقوم طبقة التعلم الآلي التي صممها جو بتوليد الآلاف من التراكيب المختلفة من مجموعات المعاملات للعثور على المعاملات الصحيحة المناسبة لكل منطقة جغرافية. ويقوم هذا النموذج بتعلم المعاملات التي تولد أدق توقعات الوفيات بمقارنة توقعات سيير مع البيانات الحقيقية حول الوفيات اليومية من جامعة جونز هوبكنز. يقول جو: "يحاول النموذج تعلم مجموعات المعاملات التي تولد الوفيات الأقرب إلى البيانات الفعلية التي جُمِعت من قبل. ومن ثم يستخدم نفس المعاملات لوضع التوقعات والتنبؤات حول الوفيات في المستقبل".

أثبتت توقعات هذا النموذج دقة مدهشة. وعلى سبيل المثال، وفي 3 مايو، ظهر جو في برنامج سي إن إن تونايت (CNN Tonight) حيث شارك توقعات نموذجه بأن الوفيات في الولايات المتحدة ستصل إلى 70,000 وفاة في 5 مايو، و80,000 في 11 مايو، و90,000 في 18 مايو، و100,000 في 27 مايو. وفي 28 مايو غرد على تويتر قائلاً: "لقد تمكن موقع covid19-projections.com من تحديد الوفيات في التواريخ الأربعة جميعاً بدقة". وبشيء من التقريب، كان هذا صحيحاً.

لم يكن النموذج مثالياً بطبيعة الحال، ولكنه أثار إعجاب نيكولاس رايك، وهو أخصائي بالإحصاء البيولوجي وباحث في الأمراض المعدية في جامعة ماساتشوستس بأمهيرست، التي يقوم مختبرها بالتعاون مع المركز الأميركي للسيطرة على الأمراض والوقاية منها في تجميع النتائج من حوالي 100 فريق دولي للنمذجة. ومن بين جميع النماذج المجمعة، كان نموذج جو "من بين أفضل النماذج بصورة مستمرة"، كما لاحظ رايك.

في 6 أكتوبر، نشر جو آخر توقعات الوفيات، تماماً قبل موجة الخريف. وقد توقع النموذج وصول الوفيات إلى 231,000 وفاة في الولايات المتحدة بحلول 1 نوفمبر. وفي ذلك التاريخ، كان الرقم الإجمالي المسجل: 230,995.

أوقف جو نموذجه الأول في بدايات أكتوبر؛ ففي ذلك الوقت كان هناك الكثير من الفرق التي بدأت بتقديم توقعات وفيات جيدة. وقرر بدلاً من ذلك التركيز على نمذجة الإصابات الفعلية مقارنة بالإصابات التي أُبلغ عنها. وبعد ذلك، بدأ في ديسمبر بتتبع نشر اللقاح والمسار الصعب والمتعرج نحو تحقيق مناعة القطيع، الذي غيره في بدايات 2021 إلى "المسار نحو الوضع الطبيعي". يتم تحقيق مناعة القطيع عندما تصبح نسبة كافية من السكان منيعة ضد الفيروس، ما يحد من انتشاره، في حين يعرِّف جو الوضع الطبيعي بأنه "رفع جميع القيود المتعلقة بكوفيد-19 في أغلب الولايات الأميركية".

ويقول: "لقد أصبح من الواضح أننا لن نحقق مناعة القطيع في 2021، على الأقل ليس في كافة أرجاء البلاد. وأعتقد أنه من الهام للغاية –خصوصاً لدى محاولة بث الثقة- تحديد مسارات معقولة للعودة إلى الوضع الطبيعي. يجب ألا نربط هذا الأمر بتحقيق هدف غير واقعي، مثل الوصول إلى مناعة القطيع. وما زلت أشعر بتفاؤل حذر إزاء صحة توقعي الأصلي في فبراير حول العودة إلى الوضع الطبيعي في الصيف".

في بداية مارس، قرر التوقف عن هذا العمل بالكامل، فقد رأى أنه قدم جميع ما يمكن أن يقدمه من المساهمات. ويقول: "لقد رغبت في التراجع وإفساح المجال لمنمذجين وخبراء آخرين للقيام بالعمل. ولا أرغب في إحداث تشويش في هذا المجال".

ما زال جو يراقب البيانات، ويجري الأبحاث والتحليلات، سواء على المتحولات أو نشر اللقاح أو الموجة الرابعة. ويقول: "إذا لاحظت ما يدعو إلى القلق أو الحذر بشكل خاص، دون أن يكون مثار حديث الناس وانتباههم، فلا شك أنني سأنشر عنه". ولكن في الوقت الحالي، فإنه يركز على مشاريع أخرى، مثل يولو ستوكس، وهي منصة تحليل تقوم بنشر أسعار الأسهم بشكل متواصل. كما أن عمله الأساسي في مجال الوباء يتجسد بعضويته في مجموعة الاستشارة التقنية حول تقييم وفيات كوفيد-19 في منظمة الصحة العالمية، حيث يشارك خبراته الخارجية.

ويقول: "لقد تعلمت الكثير في السنة الماضية بالتأكيد. وقد كانت تجربة مكنتني من معرفة الكثير من الأشياء".

الدرس الأول: التركيز على الأساسيات

يقول جو: "من وجهة نظر علم البيانات، بيَّنت نماذجي أهمية البساطة، التي لا تحظى في أغلب الأحيان بما تستحقه من الاهتمام". لم يكن نموذجه الخاص بتوقع الوفيات بسيطاً من حيث التصميم وحسب -والمؤلف من برنامج سيير مع طبقة من التعلم الآلي- بل أيضاً من حيث المقاربة البسيطة للغاية "من الأسفل إلى الأعلى" فيما يتعلق ببيانات الدخل. ويعني مصطلح من الأسفل إلى الأعلى "البدء من الحد الأدنى الضروري، وإضافة المزيد من التعقيد عند الضرورة. يعتمد نموذجي على بيانات الوفيات السابقة فقط لتوقع الوفيات اللاحقة. ولا يستخدم أي مصادر بيانات حقيقية أخرى".

لاحظ جو أن النماذج الأخرى تعتمد على مجموعات منتقاة من البيانات حول الحالات، والدخول إلى المستشفيات، والاختبارات، والحركة، واستخدام الكمامات، والإصابات المشتركة، والتوزع العمري، والعوامل الديمغرافية، ومواسم الإصابة بذات الرئة، ومعدل الوفيات السنوي بسبب ذات الرئة، وكثافة السكان، وتلوث الهواء، والارتفاع، وبيانات التدخين، وحالات الاحتكاك التي يتم الإبلاغ عنها ذاتياً، وحركة النقل الجوي للركاب، والاختبارات المنزلية، ومقاييس الحرارة الذكية، ومنشورات فيسبوك، وعمليات البحث على جوجل، وغير ذلك.

ويقول: "هناك تصور شائع يقول إن النموذج سيعطي أداء أفضل بإضافة المزيد من البيانات إليه أو زيادة تعقيده. ولكن، وفي الأوضاع الحقيقية مثل الوباء، حيث تكون البيانات مليئة بالضجيج، سيكون من الأفضل الحفاظ على البساطة قدر الإمكان".

"وقررت منذ وقت مبكر أن الوفيات الماضية هي أفضل مؤشر على الوفيات المستقبلية. إنه أمر بسيط للغاية: دخل، وخرج. أما إضافة المزيد من مصادر البيانات فلن يفيد سوى في جعل استخراج الإشارة من الضجيج أكثر صعوبة".

الدرس الثاني: التقليل من الافتراضات

يرى جو أنه حقق أفضلية كبيرة باعتماد مقاربة خالية من الافتراضات لحل المشكلة. ويقول: "كان هدفي فقط متابعة البيانات حول كوفيد لتعلم المزيد حوله. وهذه إحدى الفوائد الرئيسية لوجهة النظر الخارجية".

ولكن، وبما أنه ليس مختصاً بالأوبئة، كان يجب على جو أيضاً أن يتأكد أنه لم يكن يقوم بطرح افتراضات صحيحة أو خاطئة. ويقول: "كان دوري يتلخص في تصميم نموذج قادر على تعلم الافتراضات من أجلي".

ويلحظ قائلاً: "عندما تصل بيانات جديدة معاكسة لاعتقاداتنا، قد نميل في بعض الأحيان إلى التغاضي عن هذه البيانات الجديدة أو تجاهلها، ويمكن أن يؤدي هذا إلى عواقب لاحقة. ودون شك، فقد ارتكبت هذا الخطأ بنفسي، وأدرك أن هذا حدث للكثيرين أيضاً".

"ولهذا، فإن إدراك التحيز الموجود لدينا مسبقاً والاعتراف به، والقدرة على تعديل وجهات نظرنا -أي تعديل معتقداتنا في حال تضاربها مع البيانات الجديدة- أمر هام للغاية، خصوصاً في بيئات سريعة التقلب كما رأينا مع كوفيد".

الدرس الثالث: اختبار الفرضيات

يقول جو: "لقد رأيت في الأشهر القليلة الماضية أنه يمكن لأي شخص أن يطلق الادعاءات أو يتلاعب بالبيانات حتى تطابق الرواية التي يريد أن يصدقها". وهو ما يؤكد على أهمية وضع فرضيات يمكن اختبارها، ببساطة.

"بالنسبة لي، فإن هذا يمثل كامل أساس توقعاتي وتنبؤاتي. لديَّ مجموعة من الافتراضات، وإذا كانت صحيحة، فإن ما نتوقعه سيحدث فعلاً في المستقبل"، كما يضيف جو. "وإذا تبين لنا أن الفرضيات خاطئة، فيجب أن نعترف بهذا الخطأ، ونجري التعديلات اللازمة. وإذا لم تضع فرضيات يمكن اختبارها، فلا توجد طريقة لإثبات صحة عملك أو خطئه فعلياً".

الدرس الرابع: التعلم من الأخطاء

يقول جو: "لم تكن جميع توقعاتي صحيحة"؛ ففي 2020، توقع 180,000 وفاة في الولايات المتحدة بحلول أغسطس. ويستذكر قائلاً: "كان هذا الرقم أعلى بكثير مما شهدناه". تبين له أن فرضيته القابلة للاختبار كانت خاطئة "وهو ما أرغمني على تعديل افتراضاتي".

في ذلك الوقت، كان جو يعتمد على نسبة ثابتة للوفيات في الإصابات تساوي تقريباً 1% كرقم ثابت في محاكي سيير. وعندما قام في الصيف بتخفيض النسبة إلى حوالي 0.4% (ولاحقاً إلى حوالي 0.7%) عادت توقعاته إلى مجال أكثر واقعية.

الدرس الخامس: أخذ الانتقادات بعين الاعتبار

يقول جو، الذي استخدم تويتر لنشر توقعاته وتحليلاته: "لن يتفق الجميع مع أفكاري، وأنا أرحب بهذا. أحاول التجاوب مع الناس قدر الإمكان، وأدافع عن آرائي، وأخوض النقاشات. وهو أمر يدفعك إلى التفكير بافتراضاتك والأسباب التي تدعوك إلى الاعتقاد بصحتها".

"يؤول كل شيء إلى ميلنا للنظر إلى المعلومات الجديدة على أنها أدلة تؤكد معتقداتنا السابقة. فإذا لم أتمكن من الدفاع عن موقفي بشكل مناسب، فهل هو الموقف الصحيح، وهل يجب أن أطلق هذه المزاعم؟". إن التفاعل مع الآخرين يساعدني على توجيه تفكيري حول هذه المشاكل. فعندما يقدم الآخرون أدلة تناقض وجهات نظري، يجب أن أكون قادراً على الاعتراف بأنني قد أكون مخطئاً في بعض افتراضاتي. وفي الواقع، فقد ساعدني هذا على تحسين نموذجي إلى درجة كبيرة".

الدرس السادس: ممارسة التشكيك بشكل مناسب

يقول جو: "أشعر الآن بشكوك أكبر إزاء العلم، وهذا ليس بالأمر السيئ. وأعتقد أنه من الهام أن نشكك في النتائج على الدوام، ولكن بشكل صحيح. إنه حد دقيق للغاية؛ لأن الكثيرين يرفضون العلم بشكل قاطع، وهذه ليست بطريقة تفكير ملائمة على الإطلاق".

ويضيف: "غير أنني أعتقد، من ناحية أخرى، أننا يجب ألا نثق في العلم بشكل أعمى أيضاً؛ فالعلماء لا يتصفون بالكمال والمثالية". يضيف جو أنه من المناسب طرح الأسئلة والعثور على التفسيرات إذا ظهر خطأ ما. "من الهام أن تكون لدينا وجهات نظر مختلفة. وقد تعلمنا السنة الماضية، دون شك، أنه لا يوجد شخص على حق بالكامل طوال الوقت".

"لا أستطيع أن أتكلم بالنيابة عن كل العلماء، ولكن عملي يتلخص باختراق كل الضجيج والعوامل المختلفة للوصول إلى الحقيقة. لا أدعي تحقيق نتائج مثالية طوال السنة الماضية؛ فقد أخطأت مرات عديدة، ولكنني أعتقد أنه يمكننا جميعاً تعلم التعامل مع العلم على أنه وسيلة للوصول إلى الحقيقة، وليس الحقيقة نفسها".