قدمت الشركة الناشئة إكسا (Exa) فكرة جديدة في مجال البحث التوليدي. تستخدم الشركة التكنولوجيا التي تعتمد عليها النماذج اللغوية الكبيرة لتقدم قوائم من النتائج التي تزعم أنها أدق مما تقدمه الشركات المنافسة، بما فيها جوجل وأوبن أيه آي (OpenAI). تسعى الشركة إلى تحويل المجموعة الهائلة والعشوائية من صفحات الويب المنتشرة في الإنترنت إلى جدول بحث، حيث تؤدي استعلامات البحث إلى نتائج محددة ودقيقة.
تقدم إكسا محرك البحث الخاص بها بوصفه خدمة تتولى طبقة الوصول إلى البيانات (الجهة الخلفية) للشركات التي تريد بناء تطبيقاتها الخاصة على أساسه. واليوم، تطلق الشركة نسختها الأولى الخاصة بالمستهلكين من محرك البحث هذا، والذي يحمل اسم "ويبسيتس" (Websets).
يقول مؤسس إكسا ورئيسها التنفيذي، ويل بريك: "تتألف شبكة الويب من مجموعة من البيانات، لكنها فوضوية للغاية. إذ يمكن أن نجد مقطع فيديو لجو روغان هنا، ونجد مقالة لمجلة أتلانتيك (Atlantic) هناك. ليس هناك أي تنظيم. لكن حلمنا هو أن يصبح الويب بمثابة قاعدة بيانات".
اقرأ أيضاً: هل ستقضي بوتات الدردشة على محركات البحث التقليدية؟
الويب كقاعدة للبيانات
يهدف محرك البحث ويبسيتس إلى دعم المستخدمين الذين يحتاجون إلى البحث عن أشياء لا يمكن العثور عليها بسهولة من خلال محركات البحث الأخرى، مثل أنواع الأشخاص أو الشركات. فإذا طلبت من محرك البحث هذا أن يبحث عن "شركات ناشئة تصنع مكونات مادية مستقبلية" (startups making futuristic hardware)، ستحصل على قائمة طويلة من مئات الشركات المحددة، بدلاً من الروابط العشوائية لصفحات الويب التي تذكر هذه المصطلحات، والتي قد تكون مفيدة لك أو عديمة الفائدة. لا يستطيع محرك البحث جوجل أن يفعل هذا، حيث يقول بريك: "ثمة الكثير من حالات الاستخدام المفيدة للمستثمرين أو مختصي التوظيف، أو حتى أي شخص يسعى إلى الحصول على أي نوع من مجموعات البيانات من الويب".
لقد تطورت الأمور بسرعة منذ أعلنت مجلة إم آي تي تكنولوجي ريفيو أول مرة في 2021 أن باحثي جوجل كانوا يدرسون استخدام النماذج اللغوية الكبيرة في نوع جديد من محركات البحث. وسرعان ما تعرضت الفكرة إلى انتقادات حادة. لكن الشركات التكنولوجية لم تعر الأمر أي اهتمام. بعد مرور 3 سنوات، وجدت الشركات العملاقة، مثل جوجل ومايكروسوفت، نفسَها في منافسة حادة للحصول على حصة من هذا التوجه الجديد الرائج بقوة مع مجموعة كبيرة من الشركات الجديدة النشطة، على غرار بيربليكسيتي (Perplexity) وأوبن أيه آي، التي أطلقت خدمة البحث تشات جي بي تي سيرش (ChatGPT Search) في أكتوبر/تشرين الأول.
لا تسعى إكسا (حتى الآن) إلى التفوق على أي من هذه الشركات. وبدلاً من ذلك، قررت أن تطرح شيئاً جديداً. فمعظم شركات البحث الأخرى تعتمد على أسلوب ربط النماذج اللغوية الكبيرة مع محركات البحث الموجودة مسبقاً، حيث تستخدم النماذج لتحليل استعلام المستخدم ثم تلخيص النتائج. لكن محركات البحث نفسها لم تتغير كثيراً. فما زالت بيربليكسيتي توجه استعلامات البحث الخاصة بها إلى محرك البحث جوجل أو محرك البحث بينغ (Bing)، على سبيل المثال. يمكن تشبيه محركات البحث الحالية التي تعمل بالذكاء الاصطناعي بشطائر مصنوعة من خبز طازج وحشوة بائتة.
عملية بحث على الويب بأسلوب جديد
تقدم إكسا إلى المستخدمين قوائم مألوفة من الروابط التشعبية، لكنها تستخدم التكنولوجيا التي تعتمد عليها النماذج اللغوية الكبيرة كي تنفذ عملية البحث نفسها بأسلوب جديد. إليك الفكرة الأساسية: يعتمد محرك البحث جوجل في عمله على تصفح الويب بطريقة منهجية وآلية ومنظمة (crawling) باستخدام برامج مخصصة لذلك، وبناء فهرس ضخم من الكلمات المفتاحية التي تجري مطابقتها بعد ذلك مع استعلامات المستخدمين. أما إكسا فتستخدم برامج التصفح الآلي هذه التي تمسح الويب وترمز محتويات صفحات الويب بصيغة معروفة باسم "التضمينات" (embeddings)، وهي صيغة يمكن معالجتها باستخدام النماذج اللغوية الكبيرة.
اقرأ أيضاً: أيّهما أكثر إبداعاً: تشات جي بي تي أمْ محرك البحث جوجل؟
تحوّل التضمينات الكلمات إلى أرقام بطريقة تجعل الكلمات ذات المعاني المتشابهة تصبح أرقاماً ذات قيم متشابهة. في الواقع، تتيح هذه الطريقة لإكسا التقاط المعاني الكامنة في نصوص صفحات الويب، لا الكلمات المفتاحية وحسب.
تستخدم النماذج اللغوية الكبيرة التضمينات كي تتنبأ بالكلمات التالية في جملة معينة. أما محرك البحث الخاص بإكسا فيتنبأ بالرابط التالي. فإذا كتبت "شركات ناشئة تصنع مكونات مادية مستقبلية" (startups making futuristic hardware) سيعطيك النموذج مجموعة من الروابط (الحقيقية) التي قد تلي هذه العبارة.
عملية مكلفة جداً
غير أن طريقة إكسا تنطوي على تكلفة. فترميز الصفحات بدلاً من فهرسة الكلمات المفتاحية عملية بطيئة ومكلفة جداً. يقول بريك إن إكسا رمّزت نحو مليار صفحة ويب. هذا رقم صغير مقارنة بجوجل، التي فهرست ما يقارب تريليون صفحة ويب. لكن بيرك لا يعتبر أن هذا يمثل مشكلة. ويقول: "ليس من الضروري تضمين صفحات شبكة الويب بأسرها للاستفادة منها". (معلومة طريفة: كلمة "إكسا" [exa] تعني الرقم 10 مرفوعاً للقوة 18، أي 1 متبوعاً بثمانية عشر صفراً، أما كلمة "جوجول" [googol] المستوحى منها اسم شركة جوجل فيعني الرقم 10 مرفوعاً للقوة 100، أي 1 متبوعاً بمائة صفر).
يتسم ويبسيتس ببطء شديد في تقديم النتائج. وقد تستغرق عملية البحث الواحدة عدة دقائق. لكن بريك يزعم أن النتيجة تستحق كل هذا الانتظار. ويقول: "بدأ الكثير من عملائنا يطلبون الحصول على الآلاف من النتائج أو عشرات الآلاف من النتائج. ولم يكن لديهم أي مانع في ترك محرك البحث يعمل لإحضار كوب من القهوة، والعودة بعد قليل ليجدوا قائمة ضخمة من النتائج".
يقول طالب علوم الكمبيوتر في جامعة ستانفورد، آندرو غاو، الذي استخدم محرك البحث: "تتمثل الفائدة العظمى لمحرك البحث إكسا بالنسبة لي عندما لا أعرف بالضبط ما الذي أبحث عنه. على سبيل المثال، الاستعلام: ’منشور مدونة مثير للاهتمام حول النماذج اللغوية الكبيرة في مجال التمويل‘ (an interesting blog post on LLMs in finance) يعطي نتائج أفضل باستخدام إكسا مقارنة ببيربليكسيتي". لكنّ محركَي البحث مفيدان في استخدامات مختلفة، حيث يقول: "أستخدم كلا محركي البحث لأغراض مختلفة".
اقرأ أيضاً: كيف تعمل جوجل على الحد من تأثير بوت تشات جي بي تي على محرك البحث الخاص بها؟
يقول الرئيس التنفيذي لشركة ديفبوت (Diffbot) التي تستخدم الرسوم البيانية المعرفية (knowledge graphs) لبناء نوع آخر من محركات البحث، مايك تونغ: "أعتقد أن التضمينات طريقة رائعة لتمثيل كيانات مثل الأشخاص والأماكن والأشياء في العالم الحقيقي". لكنه يشير إلى أن محاولة تضمين جمل كاملة أو صفحات نصية كاملة تؤدي إلى فقدان الكثير من المعلومات: "إن تمثيل رواية الحرب والسلام (War and Peace) بتضمين واحد سيؤدي إلى فقدان كل الأحداث التفصيلية في تلك القصة تقريباً، بحيث لا يتبقى سوى طابع عام يعبر عن نوع الرواية وفترتها التاريخية".
يعترف بريك بأن إكسا مشروع ما زال قيد التطوير. ويشير أيضاً إلى وجود أوجه قصور أخرى لمحرك البحث هذا. فإكسا لا تضاهي محركات البحث المنافسة إذا أردت أن تبحث عن معلومة إفرادية محددة، مثل اسم صديق المغنية تايلور سويفت، أو هوية ويل بريك. يقول بريك: "عند البحث عن اسمي، سيعطي محرك البحث قائمة تتضمن الكثير من الأشخاص الذين يحملون أسماء تبدو بولندية، لأن شهرتي بولندية، والتضمينات ضعيفة في مطابقة الكلمات المفتاحية الدقيقة".
حالياً، تلتف إكسا حول هذه المشكلة من خلال إعادة الكلمات المفتاحية إلى النتائج عندما تكون هناك حاجة إليها. لكن بريك متفائل: "نعمل على سد الثغرات الكامنة في طريقة التضمين حتى تصبح ممتازة إلى درجة لا تعود في حاجة إلى سد الثغرات".