قال جاليليو ذات مرة إن الطبيعة مكتوبة بواسطة الرياضيات، غير أن البيولوجيا قد تكون مكتوبة بواسطة الكلمات. فقد أصبحت خوارزميات معالجة اللغة الطبيعية قادرة الآن على توليد التسلسلات البروتينية وتوقع تحولات الفيروسات، بما فيها التغيرات الأساسية التي قد تساعد فيروس كورونا على تفادي النظام المناعي.
إن المعلومة الأساسية التي تجعل هذا ممكناً هو أن الكثير من خصائص الأنظمة البيولوجية قابلة للتفسير باستخدام الكلمات والجمل. تقول بوني بيرجر، وهي مختصة في علم الأحياء الحاسوبي في معهد ماساتشوستس للتكنولوجيا: “إننا نتعلم لغة التطور”.
في السنوات القليلة الماضية، أثبت بعض الباحثين -بما فيهم فِرَق من مختبر عالم الجينات جورج تشيرتش وسيلزفورس- أنه يمكن نمذجة تسلسلات البروتينات والرموز الجينية باستخدام تقنيات معالجة اللغة الطبيعية.
والآن، وفي دراسة نُشرت مؤخراً في مجلة ساينس، قررت بيرجر وزملاؤها الاستعانة بعدد من هذه الأساليب واستخدام معالجة اللغة الطبيعية للتنبؤ بالتحولات التي قد تسمح للفيروسات بتفادي اكتشافها من قِبل الأجسام المضادة في النظام المناعي البشري، وهي عملية تُعرف باسم الهروب المناعي الفيروسي. تتلخص الفكرة الأساسية في أن تفسير الفيروس بالنسبة للنظام المناعي يشبه تفسير الجملة بالنسبة للإنسان.
يقول علي مدني، وهو عالم يعمل في سيلزفورس على استخدام معالجة اللغة الطبيعية للتنبؤ بتسلسلات البروتين: “إنه بحث رائع، ويعتمد على الزخم الذي أطلقته أبحاث سابقة”.
يعتمد فريق بيرجر على مفهومين لغويين مختلفين: القواعد والدلالات (أو المعاني). يمكن تفسير اللياقة الجينية أو التطورية للفيروس -وهي صفات مثل مدى قدرته على إصابة المضيف- من وجهة نظر قواعدية؛ فالفيروس الناجح والفعال من حيث الإصابة صحيح قواعدياً، والفيروس الضعيف غير صحيح قواعدياً.
وبشكل مماثل، يمكن تفسير تحولات الفيروس من وجهة نظر دلالية؛ حيث إن التحولات التي تجعل الفيروس يبدو مختلفاً بالنسبة للأشياء في البيئة المحيطة به -مثل التغيرات في البروتينات السطحية التي تجعله خفياً بالنسبة لأجسام مضادة معينة- تُعتبر وكأنها غيرت معناه. أي أن الفيروسات ذات التحولات المختلفة يمكن أن تحمل معاني مختلفة، كما أن الفيروس الذي يحمل معنى مختلفاً قد يحتاج إلى أجسام مضادة مختلفة لقراءته.
لنمذجة هذه الخصائص، استخدم الباحثون LSTM (أي الذاكرة الطويلة قصيرة المدى)، وهي شبكة عصبونية ظهرت قبل الشبكات التي تعتمد على المحولات، والمستخدمة في النماذج اللغوية الكبيرة مثل جي بي تي 3. يمكن تدريب هذه الشبكات القديمة باستخدام مقدار أقل بكثير من المعلومات مقارنة بالمحولات، والاحتفاظ مع ذلك بأداء جيد في الكثير من التطبيقات.
قراءة الفيروسات
ولكن، وبدلاً من ملايين الجمل، قام الباحثون بتدريب نموذج معالجة اللغة الطبيعية على الآلاف من التسلسلات الجينية المأخوذة من ثلاثة فيروسات مختلفة: 45,000 تسلسل فريد لأحد أنواع الأنفلونزا، و60,000 تسلسل فريد لأحد أنواع فيروس HIV، وما بين 3,000 و4,000 لأحد أنواع فيروس سارس-كوف-2، الذي يسبب مرض كوفيد-19. يقول برايان هاي، وهو طالب دراسات عليا في إم آي تي، والذي قام ببناء النماذج: “ليس لدينا الكثير من البيانات حول فيروس كورونا بسبب نقص المراقبة”.
تعمل نماذج معالجة اللغة الطبيعية عن طريق ترميز الكلمات في فضاء رياضي، بحيث تكون الكلمات ذات المعاني المتقاربة أقرب إلى بعضها البعض من الكلمات ذات المعاني المختلفة؛ وهذا ما يُعرف باسم التضمين. وبالنسبة للفيروسات، فإن تضمين التسلسلات الجينية أدى إلى تجميع الفيروسات وفقاً لمدى التقارب بين تحولاتها.
تهدف هذه المقاربة عموماً إلى كشف التحولات التي قد تسمح للفيروس بالهرب من النظام المناعي دون التأثير على قدرته على الإصابة، أي التحولات التي تغير معنى الفيروس دون جعله خاطئاً من الناحية القواعدية.
لنأخذ مثالاً لغوياً؛ يمكن لتغيير كلمة واحدة في الجملة “يفرح مزارعو العنب بموسم جيد” أن يؤدي مثلاً إلى الحصول على الجملتين “يفرح مزارعو العنب بموسم قوي” و”يفرح مزارعو العنب بموسم الأنفلونزا”. تشترك الجملتان الجديدتان في نفس التركيبة القواعدية، ولكن إحداهما تحمل معنى مختلفاً للغاية عن الجملة الأصلية مقارنة بالجملة الأخرى. تبحث الأدوات عن تغيرات مماثلة في الفيروس، وتضع وسماً على أكبر التغيرات في المعاني.
لاختبار هذه المقاربة، استخدم الفريق مقياساً شائعاً يستخدم في تقييم تنبؤات نماذج التعلم الآلي، وهو مقياس يصنف دقة التوقع ما بين 0.5 (ليست أفضل من التوقع الاحتمالي العادي) و1 (مثالية). وفي هذه الحالة، فام الفريق بقياس أفضل التحولات التي حددها الأداء، وتفقدوا ما إذا كانت تحولات هروب مناعي فعلية باستخدام فيروسات حقيقية في المختبر. تراوحت النتائج ما بين 0.69 لفيروس HIV إلى 0.85 لأحد أنواع فيروس كورونا. وهذه النتائج، وفقاً للباحثين، أفضل من نتائج نماذج جديدة أخرى.
النظر إلى الأمام
قد تساعد معرفة التحولات المقبلة المستشفيات وسلطات الصحة العامة على اتخاذ الاحتياطات اللازمة في خططها. وعلى سبيل المثال، فإن حساب النموذج لمدى تغيرات فيروس الأنفلونزا منذ العام الماضي يمكن أن يعطي تصوراً حول أداء الأجسام المضادة التي طورتها أجسام البشر في هذه السنة.
غير أن هذا العمل ما زال حتى الآن أقرب إلى استكشاف مجال بحثي جديد منه إلى إحداث أثر فعلي في الصحة العامة. ومنذ تنفيذ العمل المنشور في مجلة ساينس، كان الفريق يجرب النماذج على أنواع جديدة من فيروس كورونا، بما في ذلك الذي أطلق عليه اسم: تحول المملكة المتحدة، وتحول المينك في الدنمارك، وبعض التحولات الأخرى من جنوب أفريقيا وسنغافورة وماليزيا.
وقد وجد الفريق احتمالاً مرتفعاً للهروب المناعي في جميع هذه النماذج، على الرغم من أن هذا لم يخضع لاختبار فعلي. ولكن النموذج فاته تغير آخر في النوع الجنوب أفريقي، وهو تغير أثار بعض المخاوف لأنه قد يسمح له بالهروب من اللقاحات؛ وهم يحاولون معرفة السبب. تقول بيرجر: “إنه يتألف من عدة تحولات، ونعتقد أن مجموع تأثيراتها هو العامل المهم”.
يساعد استخدام معالجة اللغة الطبيعية على تسريع عملية بطيئة؛ ففي السابق، كان بالإمكان أخذ الفيروس من مريض كوفيد-19 في المستشفى وتحديد تسلسله وإعادة تركيب تحولاته ودراستها في المختبر. ولكن هذه العملية قد تستغرق عدة أسابيع، وذلك فقاً لبرايان برايسون، وهو بيولوجي في إم آي تي، وأحد العاملين في المشروع. من ناحية أخرى، فإن نموذج معالجة اللغة الطبيعية يتنبأ بالتحولات الممكنة مسبقاً، ما يساعد على زيادة تركيز العمل المخبري وتسريعه.
يقول برايسون: “إن العمل على هذا المشروع في هذا الوقت أمر مذهل”؛ فنحن نشهد ظهور تسلسلات فيروسية جديدة كل أسبوع. “إنه لأمر رائع أن تقوم في نفس الوقت بتحديث نموذجك وإجراء التجارب عليه في المختبر؛ هذه هي البيولوجيا الحاسوبية في أفضل صورها”.
ولكن هذه ليست سوى البداية؛ حيث إن طريقة التعامل مع التحولات الجينية على أنها تغيرات في المعنى قابلة للتطبيق بعدة أساليب في علم الأحياء. ويقول برايسون: “إن التشبيه الجيد يمكن أن يكون ذا تأثير عميق”.
وعلى سبيل المثال، يعتقد هاي أن هذه المقاربة يمكن تطبيقها على مقاومة العقاقير. ويقول: “يمكن مثلاً أن تُطبق على بروتين سرطاني زادت مقاومته للعلاج الكيميائي أو بروتين بكتيري زادت مقاومته لمضاد حيوي”؛ ويمكن اعتبار هذه التحولات أيضاً كتغيرات في المعنى. يقول مدني: “هناك الكثير من الأساليب المبتكرة لتفسير النماذج اللغوية؛ وأعتقد أن البيولوجيا توشك على أن تشهد ثورة حقيقية”. ويضيف: “فقد انتقلنا الآن من مرحلة مجرد جمع كميات ضخمة من البيانات إلى تعلم فهمها بعمق”.
بدأ الباحثون يراقبون التطورات في معالجة اللغة الطبيعية، ويفكرون في تشابهات جديدة ما بين اللغة والبيولوجيا من أجل الاستفادة من هذه التطورات. ولكن برايسون وبيرجر وهاي يعتقدون أن هذا التقاطع يصلح في الاتجاه الآخر أيضاً، مع ظهور خوارزميات جديدة لمعالجة اللغة الطبيعية بتصاميم مستوحاة من مفاهيم بيولوجية؛ تقول بيرجر: “تمتلك البيولوجيا لغتها الخاصة أيضاً”.