ديب مايند: نظام ذكاء اصطناعي يحل لغزاً في علم الأحياء عمره 50 عاماً

سبق لشركة ديب مايند أن حققت سلسلة من النجاحات، بتقديم مجموعة من أنظمة الذكاء الاصطناعي التي تعلمت كيف تلعب مجموعة متنوعة من الألعاب المعقدة بمهارات بشرية خارقة، بدءاً بلعبتي جو وستاركرافت وصولاً إلى كامل مجموعة ألعاب أتاري. ولكن لطالما أكد ديميس هاسابيس، وهو الوجه الإعلامي لشركة ديب مايند وأحد مؤسسيها، أن هذه النجاحات ما هي إلا نقطة الانطلاق نحو هدف أكبر: ذكاء اصطناعي يساعد حقاً في فهم العالم.
<

فقد أعلنت ديب مايند ومنظمو منافسة التقييم النقدي لتقنيات التنبؤ ببنية البروتين (اختصاراً CASP) -وهي منافسة قائمة منذ زمن- عن ذكاء اصطناعي يجب أن يكون له الأثر العظيم الذي كان يقصده هاسابيس بكلامه. فقد استطاعت النسخة الأحدث من ألفافولد من ديب مايند تحطيمَ واحد من التحديات الكبرى في علم الأحياء، وهذه النسخة هي نظام تعلم عميق يستطيع التنبؤ ببنية البروتين بدقة تقارب قطر ذرة. يقول جون مولت قائد الفريق الذي يجري CASP من جامعة ميريلاند: “إنه أول استخدام للذكاء الاصطناعي لحل مشكلة حقيقة”.

يتكون البروتين من شريط من الأحماض الأمينية، يتطوّى هذا الشريط على نفسه بالعديد من الالتواءات والانثناءات والتشابكات المعقدة. وهذه البنية تحدد الوظيفة التي يقوم بها. إن معرفة وظائف البروتينات تلعب دوراً أساسياً في فهم الآليات الأساسية للحياة، سواء كانت في حالة العمل أو في حالة التوقف. فعلى سبيل المثال، ركزت الجهود الرامية إلى إيجاد لقاحات لكوفيد-19 على البروتين المسماري للفيروس؛ إذ تعتمد الطريقة التي يتسلل بها فيروس كورونا إلى الخلايا البشرية على شكل هذا البروتين وشكل البروتينات على السطح الخارجي لهذه الخلايا. والبروتين المسماري هو مجرد واحد من مليارات البروتينات في جميع الكائنات الحية؛ ففي جسم الإنسان وحده توجد مئات آلاف الأنواع من البروتينات.

هذا العام في تجربة CASP، تنبأ ألفافولد ببنية العشرات من البروتينات بهامش خطأ قدره فقط 1.6أنغستروم أي 0.16 نانومتر، بمعنى آخر: بحجم ذرة. وهذا يتجاوز كل الطرائق الحاسوبية الأخرى بمراحل، ويتطابق لأول مرة مع دقة الطرائق التجريبية لتحديد بنية البروتينات في المختبر، نذكر من هذه الطرائق: استخدام المجهر الإلكتروني فائق البرودة، وتقنية الرنين المغناطيسي النووي، ودراسة البلورات بالأشعة السينية. هذه الطرائق مكلفة للغاية وبطيئة، حيث يمكن أن تكلف دراسة البروتين الواحد مئات الآلاف من الدولارات، وسنةً كاملة من التجارب والإخفاقات. أما ألفافولد يمكنه تحديد بنية بروتين واحد في غضون بضعة أيام فقط.

هذا الإنجار يمكن أن يساعد الباحثين في تصميم أدويةٍ جديدة وفهم الأمراض. كما أن التنبؤ ببنية البروتين سوف يساعد على المدى الطويل في تصميم بروتينات اصطناعية، مثل الأنزيمات التي تحلل النفايات أو تنتج الوقود الحيوي. وما يزال الباحثون يستكشفون طرائق لإنتاج بروتينات اصطناعية تساعد في زيادة مردود المحاصيل الزراعية ورفع القيمة الغذائية للنباتات.

يقول محمد القريشي، عالم أنظمة الأحياء في جامعة كولومبيا والذي طور برنامجه الحاسوبي الخاص للتنبؤ ببنية البروتين: “إنه تقدم جوهري. وهو حقاً شيءٌ لم أتوقع حدوثه بهذه السرعة، إنه أمر مثير للدهشة نوعاً ما”.

“إنه أمر عظيم” كما يقول دافيد بايكر، مدير معهد تصميم البروتينات في جامعة واشنطن ورئيس الفريق الذي عمل على مشروع روزيتا، والذي يمثل عائلة من أدوات تحليل البروتين. ويتابع قائلاً: ” إنه إنجاز رائع، كما فعلنا مع لعبة جو”.

أرقام فلكية

يعد تحديد بنية البروتين مهمةً في غاية الصعوبة. فبالنسبة لمعظم البروتينات، يملك العلماء تسلسل الأحماض الأمينية في الشريط، لا الأشكال الملتوية التي تتطوًى بها. وعادةً هناك رقم فلكي من الأشكال المحتملة لكل تسلسل. وما يزال الباحثون يتصارعون مع هذه المشكلة منذ سبعينيات القرن الماضي، عندما حصل كريستيان أنفينسن على جائزة نوبل لأنه برهن أن التسلسل يحدد البنية.

أعطى إطلاق التجربة CASP عام 1994 دفعة لهذا المجال من الدراسات. ينشر منظمو هذه التجربة كل عامين حوالي 100 تسلسل من الأحماض الأمينية لبروتينات حُددت أشكالها في المختبر ولم يعلن عنها بعد. وتتنافس عشرات الفرق حول العالم لإيجاد الشكل الصحيح لتطوَي هذه السلاسل باستخدام البرامج الحاسوبية. العديد من الأدوات المستخدمة في CASP هي أدوات متاحة للاستخدام أساساً من قبل الباحثين الطبيين. ومع ذلك كان التقدم بطيئاً، فقد فشلت التطورات التدريجية التي أنجزت على مدى عقدين من الزمن في إنتاج طرائق تختصر العمل المخبري الشاق.

عندما دخلت ديب مايند المنافسة عام 2018 بنسختها الأولى من ألفافولد، حصلت CASP على الجرعة المنشطة التي كانت في حاجة إليها. وعلى الرغم من أن ألفافولد لم يستطع تحقيق دقة النتائج المخبرية، إلا أنه تفوق على باقي التقنيات الحاسوبية بكثير. وقد استرعى الباحثون الملاحظة التالية: سرعان ما بدأ الكثيرون في تعديل منظوماتهم لتعمل بطريقة مشابهة لألفافولد.

ويقول مولت، إن أكثر من نصف المدخلات هذا العام تستخدم أحد أشكال التعلم العميق، وإن الدقة الإجمالية ارتفعت نتيجة لذلك. أما نظام بايكر الحديث -والمسمى trRosetta- فهو يستخدم بعضاً من أفكار ديب مايند عام 2018. ولكن ما زال يقبع في “المرتبة الثانية بفارق كبير جداً” على حد قول مولت.

تُحتسب النتائج في CASP باستخدام ما يعرف باختبار التباعد العام (GDT)، وهو يقدر على مقياس من 0 إلى 100 مدى تشابه البنية المتنبأ بها مع الشكل الحقيقي للبروتين الذي تم تحديده باستخدام التجارب المخبرية. في هذه المنافسة، حققت النسخة الأحدث من ألفافولد نتائج جيدة لكافة البروتينات وفق هذا الاختبار. ولكنها حققت نتائج تجاوزت 90 نقطة وفق المقياس من أجل نحو ثلثي مجموعة البروتينات، في حين أن نتائجها لأصعب البروتينات تجاوزت نتائج ثاني أفضل فريق بعدها في المنافسة بمقدار 25 نقطة، وذلك حسبما يقول جون جامبر، الذي يرأس فريق ألفافولد في شركة ديب مايند. بينما كان الفارق 6 نقاط فقط عام 2018.

يعني عدد النقاط الذي يتجاوز التسعين أن أي فروقات بين البنية المتنبأ بها والبنية الحقيقية يمكن أن تُعزى إلى الأخطاء التجريبية التي يتم ارتكابها في المختبر، لا إلى أخطاء في البرنامج المستخدم. كما يمكن أن تعني أن النموذج المتنبأ به يصلح لأن يكون توصيفاً بديلاً للنموذج المخبري، ضمن حدود التغيرات الطبيعية.

ووفقاً لجامبر، فإن المنافسة كانت تضم أربعة بروتينات لم يُنهِ المحكّمون المستقلون العمل عليها بعد في المختبر، إلا أن ألفافولد تمكن من تحديد البنى الصحيحة لها.

اعتقد القريشي أن الباحثين سيحتاجون عشر سنوات للوصول إلى نتائج ألفافولد هذا العام بدءاً من عام 2018؛ حيث يقول بأن هذا قريب للحد الفيزيائي للدقة التي يمكنك الوصول إليها. ويضيف: “هذه البنى مرنة أساساً ولا معنى للحديث عن دقة أقل من ذلك بكثير”.

أجزاء الأحجية

يتابع ألفافولد عمل مئات الباحثين حول العالم، كما أن ديب مايند كوّنت خبرةً واسعةً، ببناء فرق من علماء الأحياء والفيزيائيين وعلماء الحاسوب. ستُنشر تفاصيل طريقة عمل ألفافولد هذا الأسبوع في مؤتمر CASP، وفي مقالة خاضعة لمراجعة الأقران في عدد خاص من مجلة بروتينز (Proteins) العام القادم. ولكننا نعلم حق المعرفة أنها تستخدم شكلاً من شبكات آليات الانتباه، وتقنيات التعلم العميق التي تسمح للذكاء الاصطناعي بأن يتدرب من خلال التركيز على مشاكل جزئية ضمن مشاكل أكبر. يشبّه جامبر هذه الطريقة بتجميع لوحة لصورة مقطعة: تجمع أولاً بعض الأجزاء ضمن نطاق محلي صغير، قبل أن تضمها كلها معاً لتشكيل بنية كاملة.

قامت ديب مايند بتدريب ألفافولد على مجموعة تضم نحو 170,000 بروتين، تم الحصول عليها من بنك بيانات البروتينات، وهو مخزن رقمي عام مخصص لحفظ التسلسلات والبنى؛ حيث قام ألفافولد بالمقارنة بين العديد من التسلسلات الكامنة في بيانات البنك، وبحث عن أزواج الحموض الأمينية التي تنتهي غالباً بطريقة متشابهة من حيث التطوَي. ثم استخدم هذه البيانات لتخمين المسافة الفاصلة بين زوج من الحموض الأمينية في بنى لم يسبق لنا معرفتها. كما أنه قادر على تقدير دقة تخميناته. احتاج التدريب “بضعة أسابيع” باستخدام حواسيب توازي قوتها 100 إلى 200 وحدة معالجة رسومية GPU.

ما تزال ديم جانيت ثورنتون تعمل على بنى ووظائف البروتينات منذ 50 عاماً، وهي من المعهد الأوروبي للمعلوماتية الحيوية في جامعة كامبردج، في المملكة المتحدة. وقد قالت في مؤتمر صحافي الأسبوع الماضي: “لقد مضى على وجود هذه المشكلة زمن طويل، هذه حقيقة بالفعل. كنت بدأت أفكر في أننا لن نجد حلاً لها طوال حياتي”.

تُصمم العديد من الأدوية عن طريق محاكاة بنيتها الجزيئية ثلاثية الأبعاد، والبحث عن طرائق لإدخال هذه الجزيئات في البروتينات المستهدفة. وبالطبع، لا يمكن القيام بهذا إلا إذا كانت بنية هذه البروتينات معروفة. وتقول ثورنتون، إننا نتحدث عن حالة تنطبق على ربع نحو 20,000 بروتين بشري. وهذا يبقي 15,000 بروتين لا يمكن استهدافها لأننا نجهل بنيتها. وتتابع: “سيفتح ألفافولد آفاقاً جديدة للبحث”.

من جهتها، تقول ديب مايند إنها تخطط لدراسة اللاشمانيا، ومرض النوم، والملاريا، وكافة الأمراض الأفريقية التي تسببها الطفيليات؛ لأنها ترتبط بالعديد من البروتينات مجهولة البنى.

أحد مساوئ ألفافولد أنه بطيء مقارنةً بالتقنيات المنافسة. بينما نظام القريشي، الذي يستخدم شبكة هندسية تكرارية (RGN)، يستطيع إيجاد بنى البروتينات أسرع بملايين المرات، أي أنه يظهر النتائج في ثوانٍ بدلاً من أيام. تنبؤات نظامه أقل دقةً، ولكن السرعة أكثر أهمية بالنسبة لبعض التطبيقات، كما يقول القريشي.

ينتظر الباحثون لمعرفة آلية عمل ألفافولد بالضبط. يقول بايكر: “حالما يصفون آلية عمله للعالم ستزهر آلاف الأزهار، سيستخدمه الناس في الكثير من الأشياء المتنوعة، أشياء لا يمكننا تصورها الآن”.

يقول القريشي: “حتى النتيجة الأقل دقة ما تزال خبراً جيداً للعاملين مع الإنزيمات والبكتيريا، ولكن لدينا ما هو أفضل بكثير، وله صلة مباشرة بالتطبيقات الدوائية”.