يقول الخبر تمكن العلماء من تصميم نموذج جديد لذكاء اصطناعي يستطيع مساعدة الباحثين على الخوض في الأبحاث العلمية المنشورة وتحديد أحدث الأبحاث الثورية التي قد يرغبون في قراءتها. ففي 16 نوفمبر، أطلق معهد آلين للذكاء الاصطناعي (إيه آي 2) هذا النموذج على منتجه الرئيسي، سيمانتيك سكولار (الباحث الدلالي)، وهو محرك بحث في المنشورات العلمية ويعتمد على الذكاء الاصطناعي. يقدم النموذج ملخصاً تحت كل بحث علمي في مجال علوم الحاسوب (حالياً) عند استخدام وظيفة البحث أو الذهاب إلى صفحة المؤلف. وقد نال البحث الموافقة على تقديمه في مؤتمر الطرائق التجريبية في معالجة اللغة الطبيعية الذي عقد مؤخراً.
سياق تطوير النموذج الجديد
في عصر فيضان المعلومات، أصبح استخدام الذكاء الاصطناعي لتلخيص النصوص أحد المعضلات المفضلة في مجال معالجة اللغة الطبيعية. وهناك مقاربتان عامتان لهذه المهمة: تدعى الأولى بالمقاربة "الاستخلاصية"، التي تقوم على إيجاد جملة أو مجموعة من الجمل من النص الحرفي بحيث تعبر عن خلاصته. أما الطريقة الأخرى فتسمى "التلخيصية"، وهي التي تتضمن توليد جمل جديدة. وعلى الرغم من أن الطرق الاستخلاصية كانت أكثر شعبية بسبب محدودية قدرات أنظمة معالجة اللغة الطبيعية، فإن التطويرات التي تحققت في توليد اللغة الطبيعية في السنوات الأخيرة جعلت الطريقة التلخيصية خياراً أفضل بكثير.
كيف نجح الباحثون في هذا العمل؟
يعتمد النموذج التلخيصي لإيه آي 2 على ما يعرف باسم المحول، وهو نوع من هيكليات الشبكات العصبونية ويعود إلى العام 2017، وقد استُخدم منذ ذلك الحين في تحقيق جميع القفزات الكبيرة في معالجة اللغة الطبيعية، بما فيها نموذج جي بي تي 3 من إيه آي 2. بدأ الباحثون يدربون المحول على كتلة نصية عادية لتحديد قدرته الأساسية على التعامل مع اللغة الإنجليزية. تُعرف هذه العملية باسم "التدريب الأولي" وهي أحد أسباب الفعالية العالية للمحولات. بعد ذلك، قام الباحثون بإجراء تعديل دقيق للنموذج، أي تطبيق تدريب إضافي، حتى يقوم تحديداً بمهمة التلخيص.
بيانات التدريب للتعديل الدقيق
قام الباحثون أولاً ببناء قاعدة بيانات باسم (SciTldr)، وهي تحتوي على نحو 5.400 زوج يتألف كل منها من ورقة علمية وتلخيص موافق من جملة واحدة. وللعثور على هذه التلخيصات الدقيقة، بدأ الباحثون يتتبعونها على أوبن ريفيو، وهي منصة عامة لتقديم الأبحاث للمؤتمرات، حيث يقوم أغلب الباحثين بنشر تلخيص من جملة واحدة لأبحاثهم. وهكذا حصلوا على حوالي ألفي زوج. بعد ذلك، استأجر الباحثون مجموعة من العاملين لتلخيص المزيد من الأبحاث عن طريق قراءتها وتكثيف التلخيص الذي أورده المراجعون من النظراء (المحكّمون العلميون).
ولتدعيم هذه المجموعة من 5.400 زوج، قام الباحثون ببناء مجموعة ثانية من 20,000 زوج من الأبحاث العلمية وعناوينها. ووفقاً لتقديرات الباحثين، فإن العناوين تمثل بحد ذاتها شكلاً من أشكال التلخيص، وستساعد بذلك على تحسين نتائج النموذج. وقد أكدت التجارب هذا التقدير.
تلخيص عميق
على الرغم من كثرة عدد الأبحاث التي حاولت التصدي لهذه المعضلة، فإن هذا البحث يتميز بمستوى الضغط الذي حققه. يبلغ متوسط عدد كلمات الأبحاث العلمية في قاعدة البيانات للنموذج 5.000 كلمة. أما تلخيصها المؤلف من جملة واحدة فيصل طوله وسطياً إلى 21 كلمة. يعني هذا أن كل بحث تم ضغطه وسطياً إلى جزء واحد من أصل 238 جزء من حجمه الأصلي. ومن الجدير بالذكر أن ثاني أفضل طريقة تلخيص مدربة لضغط الأبحاث العلمية لم تتجاوز في معدل الضغط جزءاً واحداً من أصل 36.5 جزء. وخلال عملية الاختبار، وجد المحكمون البشر أيضاً أن تلخيصات النموذج أكثر غنى ودقة من تلخيصات الطرق السابقة.
الخطوات التالية
بدأ إيه آي 2 منذ الآن بالعمل على تحسين النموذج على المدى القصير، وذلك وفقاً لدانييل ويلد، وهو أستاذ في جامعة واشنطن ومدير مجموعة الباحث الدلالي. وعلى سبيل المثال، يخطط الباحثون لتدريب النموذج على التعامل مع أبحاث في مجالات أخرى غير علوم الحاسوب. وأيضاً، قد يعود هذا نوعاً ما إلى عملية التدريب، فقد وجد الباحثون أن التلخيصات تتراكب في بعض الأحيان إلى حد كبير مع عناوين الأبحاث، ما يخفف من فائدتها الكلية. ولهذا، يخطط الباحثون لتحديث عملية التدريب لتطبيق عقوبة على هذا التراكب حتى يتعلم البرنامج تجنب هذا التكرار مع مرور الوقت.
أما على المدى الطويل، فسوف يقوم الفريق أيضاً بالعمل على تلخيص عدة وثائق معاً، وهو ما قد يكون مفيداً للباحثين الذين يدخلون مجالاً جديداً، أو حتى صانعي السياسات الذين يحاولون اكتساب بعض المعلومات بسرعة. يقول ويلد: "ما يثير حماسنا فعلاً هو بناء تلخيصات بحثية ذات خيارات شخصية، حيث لا نكتفي بتلخيص بحث واحد، بل مجموعة من ستة تطورات جديدة تم إحرازها في مجال فرعي محدد".