هل تمثل النماذج اللغوية مثل جي بي تي 3 بداية نوع جديد من محركات البحث؟

3 دقائق
نوع جديد من محركات البحث
مصدر الصورة: بيكساباي

في 1998، قام طالبا دراسات عليا في ستانفورد بنشر بحث تم فيه وصف نوع جديد من محركات البحث. "في هذا البحث، نقدم جوجل، وهو نموذج أولي لمحرك بحث واسع النطاق يعتمد بدرجة كبيرة على الهيكلية الموجودة في النص التشعبي. تم تصميم جوجل لمسح وفهرسة الويب بفعالية، وتقديم نتائج بحث أفضل من الأنظمة الموجودة".

كان الابتكار الأساسي خوارزمية باسم بيجرانك، تقوم بترتيب نتائج البحث بحساب مدى علاقتها باستعلام المستخدم على أساس ارتباطاتها بصفحات أخرى على الويب. وبفضل بيجرانك، أصبح جوجل بمنزلة مدخل إلى الإنترنت، وتمكن سيرجي برين ولاري بيج من بناء واحدة من أضخم الشركات في العالم.

والآن، قام فريق من باحثي جوجل بنشر اقتراح يتضمن إعادة تصميم ثورية تستغني عن مقاربة الترتيب، وتستبدلها بنموذج لغوي واحد ضخم، مثل بيرت أو جي بي تي 3، أو نسخة مستقبلية من هذه النماذج. وتقوم الفكرة على التخلي عن طريقة البحث عن المعلومات في قائمة ضخمة من صفحات الويب، وتوجيه أسئلة إلى النموذج اللغوي المدرب على هذه الصفحات للإجابة عنها مباشرة. لن تغير هذه المقاربة من طريقة عمل محركات البحث وحسب، بل ستغير من وظيفتها، وطريقة تفاعلنا معها.

لقد أصبحت محركات البحث أكثر سرعة ودقة، حتى مع التوسع الانفجاري في حجم الويب. وحالياً، يُستخدم الذكاء الاصطناعي لترتيب النتائج، كما يعتمد محرك البحث جوجل على بيرت لفهم استعلامات البحث بصورة أفضل. ولكن، وعلى الرغم من هذه التعديلات، ما زالت جميع محركات البحث الأساسية تعمل بنفس الطريقة التي كانت تعمل بها منذ 20 سنة، حيث تُفهرس صفحات الويب من قبل الزواحف (وهي برامج تقرأ الويب بشكل متواصل وتحتفظ بقائمة تتضمن كل ما تجده)، وتُجمع النتائج المطابقة لاستعلام المستخدم من هذا الفهرس، ومن ثم تُرتب.

وقد كتب دونالد ميتزلر وزملاؤه في قسم الأبحاث في جوجل: "لقد تمكنت هذه العملية (الفهرسة - الاسترجاع - الترتيب) من الصمود في وجه الزمن، ولم تتعرض إلى انتقاد أو إعادة نظر جدية بشكل يستحق الذكر".

تكمن المشكلة في أن جميع محركات البحث، بما فيها أفضلها، ما زالت حتى اليوم تستجيب بقائمة من الوثائق التي تتضمن المعلومات التي يبحث عنها المستخدم، لا المعلومات نفسها. كما أن محركات البحث ليست جيدة في الاستجابة للاستعلامات التي تتطلب إجابات مستقاة من مصادر متعددة. ويمكن تشبيه هذا الأمر بطلب نصيحة من طبيب، والحصول على مجموعة من المقالات التي يجب قراءتها، بدلاً من إجابة مباشرة.

يحاول ميتزلر وزملاؤه بناء محرك بحث يتصرف كخبير بشري. ويجب أن يكون قادراً على تقديم الإجابات بلغة طبيعية، بحيث تكون مركبة من أكثر من وثيقة واحدة، مع دعم الإجابة بالمراجع اللازمة لتقديم الأدلة، مثل المراجع التي تقدمها مقالات ويكيبيديا.

تستطيع النماذج اللغوية تحقيق هذا الهدف جزئياً. وعلى سبيل المثال، يستطيع جي بي تي 3، الذي تم تدريبه باستخدام معظم صفحات الويب و300 كتاب، تجميع المعلومات من مصادر متعددة للإجابة عن الأسئلة بلغة طبيعية. وتكمن المشكلة في أنه لا يستطيع متابعة هذه المصادر، ولا يستطيع تقديم أدلة على إجاباته. ولا توجد طريقة لمعرفة ما إذا كان جي بي تي 3 يكرر كالببغاء معلومات موثوقة أو مزيفة، أو يقوم ببساطة بتركيب كتلة من الهراء من ابتكاره الخاص.

يطلق ميتزلر وزملاؤه على النماذج اللغوية اسم الأنظمة محدودة المعرفة، ويقولون: "توحي هذه الأنظمة بأنها تعرف الكثير، غير أن معرفتها سطحية للغاية". ووفقاً للباحثين، فإن الحل هو بناء نسخة مستقبلية من بيرت وجي بي تي 3 للاحتفاظ بسجلات تتضمن مصادر الكلمات التي تستخدمها هذه الأنظمة. لا تستطيع الأنظمة المشابهة القيام بهذا حتى الآن، ولكنه أمر ممكن من حيث المبدأ، وقد بدأ العمل بهذا الاتجاه.

هناك عقود كاملة من التقدم الذي تم إحرازه في مجالات مختلفة من البحث، بدءاً من الإجابة عن الاستعلامات وتلخيص الوثائق، وصولاً إلى هيكلة المعلومات، وذلك وفقاً لزيكي زانج في جامعة شيفيلد في المملكة المتحدة، الذي يدرس استخلاص المعلومات عن الإنترنت. ولكن، لم تؤدِّ أي من هذه التكنولوجيات إلى إحداث تغيير شامل في البحث؛ لأن كلاً منها تتعامل مع مشاكل محددة، وليست قابلة للتعميم. أما هذا العمل الجديد، فهو مثير للحماس لأن النماذج اللغوية الكبيرة قادرة على القيام بكل هذه الأشياء في نفس الوقت، كما يقول زانج.

غير أنه يلحظ أن النماذج اللغوية لا تقدم أداء جيداً في المواضيع التقنية أو الاختصاصية؛ بسبب قلة الأمثلة على هذه المواضيع في النصوص المستخدمة لتدريبها. ويقول: "تتضمن الويب على الأرجح من بيانات التجارة الإلكترونية 100 ضعف ما تتضمنه من البيانات حول الفيزياء الكمومية". أيضاً، تعتمد معظم النماذج اللغوية بشكل أساسي على اللغة الإنجليزية، ما قد يؤدي إلى إهمال الأجزاء غير الإنجليزية من الويب. 

ولكن، وفي المحصلة، يرى زانج أن الفكرة جديرة بالترحيب. ويقول: "لم يكن هذا ممكناً في الماضي؛ لأن النماذج اللغوية الكبيرة لم تحقق انطلاقتها سوى منذ فترة قريبة. وإذا نجحت هذه الفكرة، فسوف تؤدي إلى تحول جذري في تجربة البحث".