الخبر
قام باحثون يعملون معاً في عدة منظمات بحثية بإطلاق مجموعة بيانات أبحاث كوفيد-19 المفتوحة (كورد-19 CORD-19) التي تتضمن أكثر من 24,000 بحث من مجلات محكمة، إضافة إلى مصادر مثل بيو أركايف bioRxiv وميد أركايف medRxiv (وهي مواقع تسمح بالنشر المسبق للأبحاث غير المحكمة). تغطي المجموعة سارس-كوف-2 (وهو الاسم العلمي لفيروس كورونا) وكوفيد-19 (الاسم العلمي للمرض) ومجموعة فيروسات كورونا. تمثل هذه المجموعة أضخم كتلة من المنشورات العلمية المتعلقة بالوباء الحالي، وسيتم تحديثها باستمرار وبشكل فوري مع نشر المزيد من الأبحاث.
كيف ظهرت هذه المجموعة؟
بُنيت قاعدة البيانات بناء على طلب مكتب البيت الأبيض لسياسات العلوم والتكنولوجيا (OSTP) عبر عمل مشترك بين 3 منظمات، فقد أمّنت المكتبة الوطنية للطب (NLM) في المجموعة الوطنية للمؤسسات الصحية الوصولَ إلى المنشورات العلمية الحالية، واستخدمت مايكروسوفت خوارزمياتها الخاصة بإدارة المنشورات العلمية للعثور على المقالات المطلوبة، وقام معهد آلين البحثي غير الربحي للذكاء الاصطناعي (AI2) بتحويلها من صفحات ويب وملفات بي دي إف إلى صيغة ذات هيكلية محددة يمكن معالجتها خوارزمياً.
ما الذي تم إنجازه؟
قام معهد AI2 بمعالجة كتلة المقالات الجديدة باستخدام نفس أساليب استخلاص وتحليل المعلومات التي يطبقها على جميع الأبحاث الجديدة، وذلك في إطار خدمة الأكاديمي الدلالي، التي تسمح للباحثين بالبحث بسهولة ضمن الأبحاث العلمية. تسمح هذه الأساليب باستخلاص معلومات أساسية مثل أسماء المؤلفين، والطرائق، والبيانات، والاستشهادات العلمية، وذلك حتى يتمكن العلماء بسرعة من تقييم مدى مساهمة كل مقالة في الأبحاث الحالية.
يعتمد معهد آلين أيضاً على أحدث نماذج معالجة اللغة الطبيعية مثل إلمو ELMo وبيرت BERT، وذلك لوضع خريطة للتشابهات بين الأبحاث. وتمثل هذه الخريطة الآن أساساً لميزة جديدة في الباحث الدلالي، بحيث تتيح للباحثين إنشاء مصدر تزويد شخصي للأبحاث يقدم لهم الأبحاث الجديدة التي تقع ضمن نطاق اهتماماتهم بشكل متواصل.
سبب أهمية هذا العمل
يسابق الباحثون الزمنَ للإجابة عن الأسئلة الملحّة حول طبيعة الفيروس على أمل كبح جماح انتشاره. ولن تقتصر مهمة قاعدة البيانات الجديدة على تجميع الأبحاث الحالية في مكان واحد، بل أيضاً ستزيد من سهولة التنقيب فيها باستخدام خوارزميات معالجة اللغة الطبيعية. وقد أطلق مكتب البيت الأبيض لسياسات العلوم والتكنولوجيا نداء مفتوحاً لجميع باحثي الذكاء الاصطناعي لتطوير أساليب جديدة للتنقيب في النصوص والبيانات لمساعدة الأوساط الطبية على التعامل مع هذه الكميات الهائلة من المعلومات بسرعة.