كيف تعمل خوارزمية جوجل لترتيب صفحات الويب؟

7 دقائق

كيف يعمل محرك بحث جوجل؟

لنحاول الإجابة عن هذا السؤال اعتماداً على وسيلتنا الأولى في البحث عن الإجابات: محرك بحث جوجل نفسه. إذا قمنا بإدخال السؤال السابق ضمن خانة مربع البحث، فإننا سنجد مصطلحاً يتكرر بوفرةٍ دون غيره: خوارزمية بيج رانك (Page Rank).

هذا الأمر صحيح، ولكن ليس بشكلٍ كامل: محرك بحث جوجل يعتمد على العديد من الخوارزميات والعوامل التي تساهم في ترتيب صفحات الويب وعرضها على المستخدم، ولكن القصة بدأت مع خوارزميةٍ واحدة ساهمت في تميز جوجل وتفوقه كمحرك بحث رائد بالمقارنة مع محركات البحث الأخرى. فما هذه الخوارزمية؟ 

بداية القصة: عملٌ بحثيّ في جامعة ستانفورد

ترتبط قصة ظهور محرك بحث جوجل والخورازمية التي يعتمد عليها بقصة طالبي دكتوراه في جامعة ستانفورد الأميركية، وهما لاري بيج وسيرجي برين؛ حيث انصب اهتمام بيج على تطوير آليةٍ لتحديد أهمية الورقات العلمية المنشورة اعتماداً على معرفة عدد مرّات اقتباسها ضمن الأوراق العلمية الأخرى، في حين انصب اهتمام برين على تطوير أنظمة التنقيب عن البيانات. 

تلاقت اهتمامات الشابين مع بعضها البعض لتطوير محرك بحث ذكيّ يستطيع تصنيف وترتيب صفحات الويب بشكلٍ عالي الكفاءة، أطلقا عليه اسم "جوجل Google" تيمّناً بعددٍ في الرياضيات يمثل واحداً متبوعاً بمئة صفر، ثم نشرا ورقةً بحثية سنة 1998 حملت اسم "بنية محرك بحثي واسع المجال لصفحات الويب ذات النصوص التشعبية The Anatomy of a Large-Scale Hypertextual Web Search Engine". ضمن هذه الورقة البحثية، تم عرض معادلةٍ رياضية بسيطة وأنيقة تشرح آلية عمل خوارزمية تصنيف وترتيب تم تسميتها "بيج رانك PageRank"، التي مثلت حجر الأساس والعمود الفقريّ لمحرك بحث جوجل الشهير، وتم الإعلان رسمياً عن جوجل سنة 1998، وما تبقى من القصة معروفٌ للجميع. 

كيف يعمل جوجل: خوارزمية بيج رانك

قبل الحديث عن بيج رانك بصفتها خوارزمية تقبع في قلب محرك بحث جوجل، يجب التشديد على أنها -على الرّغم من أهميتها- ليست العامل الوحيد حالياً الذي يحدد كيفية ظهور نتائج البحث على جوجل؛ فقد تطورت الآليات التي تستخدمها الشركة عبر الزمن وتم إطلاق العديد من التحديثات الكبيرة لنواة محرك البحث التي أصبحت تأخذ عوامل عديدة بعين الاعتبار، فضلاً عن التحديثات المتواصلة التي قد لا يلحظها المستخدم والمرتبطة بأمورٍ مثل تحسين سرعة عرض النتائج. 

بدأ تطوير بيج رانك كخوارزميةٍ بحث انطلاقاً من رغبة بيج وبرين في توفير وسيلة بحث أكثر كفاءة مقياساً بالأدوات المتاحة آنذاك، والتي اعتمدت بشكلٍ كبير على عدد مرات ظهور الكلمة المفتاحية ضمن صفحة الويب لتحديد أهمية الصفحة نفسها. بدلاً من ذلك، تم إدخال عاملٌ آخر من شأنه تصنيف الصفحات بشكلٍ أفضل: الروابط المنعكسة، أي عدد المرات التي تظهر صفحة ويب معينة في صفحاتٍ أخرى، وبالتالي فإن عملية قياس أهمية صفحة الويب أو الموقع نفسه تعتمد على مدى ترابطه وتشعبه مع المواقع الأخرى. 

لفهم كيفية عمل بيج رانك علينا أخذ صورةٍ أشمل حول كيفية عمل جوجل كمحرك بحث: تعتمد جوجل على برامج آلية تدعى العناكب أو الزواحف Spiders or Crawlers، مثلها مثل أي محرك بحث آخر وذلك من أجل تكوين فهرسٍ كبير يمكن عبره معرفة المواقع المرتبطة بكلمةٍ مفتاحية ما، وما تقوم به جوجل هو إجراء عملية فلترة للمواقع المتواجدة ضمن هذا الفهرس وإرجاع المواقع (أو صفحات الويب) ذات الأهمية الأكبر، وهنا يدخل دور بيج رانك، التي تقوم بإعطاء كل صفحة ويب تقييماً عددياً يمثل أهمية هذه الصفحة (يدعى قيمة بيج رانك) والقائم بشكلٍ أساسيّ على الارتباطات التي تمتلكها صفحة الويب المعنية مع صفحات الويب الأخرى. من أجل فهم كيفية إتمام ذلك، يمكننا العودة للورقة البحثية الشهيرة التي نشرها لاري بيج وسيرجي برين سنة 1998، التي تتضمن معادلةٍ رياضية بسيطة توضح مبدأ عمل خوارزمية بيج رانك. 

من أجل شرح المعادلة وآلية عمل بيج رانك في تصنيف صفحات الويب بحسب ترابطها مع بعضها البعض، سيتوجب علينا افتراض وجود صفحة ويب ولنُسمّها A، ولنفترض أيضاً أنه يوجد عدد معين من صفحات الويب الأخرى التي تشير إلى الصفحة A، أي التي تتضمن روابط تقود إليها. إذا كان عدد الصفحات الأخرى هو n فإننا سنقوم بتسمية هذه الصفحات كما يلي: T1, T2, T3…Tn. عبر استخدام هذه الرموز، سيكون بالإمكان حساب تقييم بيج رانك الخاص بصفحة الويب A عبر المعادلة التالية: 

PRA=1-d+dPRT1/CT1+…+PRTn/CTn

ما الذي تعنيه الرموز الموجودة ضمن المعادلة؟ لنلقي نظرة عن كثب:

  • الرمز d يرمز لمبدأ يُعرف باسم مُعدل التضاؤل Damping Rate، الذي يُشير إلى احتمالية قيام المستخدم بالنقر على روابط جديدة في كل مرة يدخل فيها لصفحة ويب؛ فعند بداية التصفح، ستكون احتمالية النقر على رابطٍ جديد مرتفعة، ولكن مع كل مرة يفتح فيها المستخدم رابطاً جديداً، ستنخفض احتمالية قيامه بفتح رابطٍ جديد، وهكذا حتى يتوقف عن التصفح بشكلٍ كليّ. 
  • الرمز C يمثل عدد الروابط الخارجة من الصفحة A باتجاه أي صفحة من الصفحات T1, T2, T3…Tn. وبهذه الصورة، فإن الحد C(T1) –كمثال– يمثل القيمة التي ستحصل عليها الصفحة T1 من الصفحة A. 
  • الحد PR(Tn) يمثل تقييم بيج رانك للصفحة Tn. 
  • الحد PR(Tn)/C(Tn) يمثل القيمة التي ستحصل عليها الصفحة A من الصفحة Tn في حال وجود رابط للصفحة A ضمن الصفحة Tn.

لو ابتعدنا قليلاً عن الرموز الرياضية وحاولنا التفكير قليلاً في المعنى، فإننا سنكون قادرين على تكوين صورة أفضل حول آلية عمل خوارزمية بيج رانك: لتحديد أهمية صفحة ويب معينة يجب فهم مدى ارتباطها بصفحات الويب الأخرى، وعلاقة الارتباط بين صفحات الويب ستحصل على تقييم عددي يرتفع أو ينخفض بحسب "قوة" هذا الارتباط. 

الشرح السابق يوضح كيفية حساب قيمة بيج رانك لصفحة ويب محددة اعتماداً على درجة ترابطها مع صفحات الويب الأخرى، إلا أن هنالك عوامل أخرى تؤخذ بالحسبان عند ترتيب صفحات الويب على صفحة نتائج بحث جوجل، وبالتالي عند البحث عن كلمةٍ مفتاحية ما فستقوم خوارزمية بيج رانك (وجوجل) بتصنيف وترتيب صفحات الويب المرتبطة بالكلمة المفتاحية المطلوبة عبر أخذ العوامل التالية بعين الاعتبار: 

  1. عدد مرات ظهور الكلمة المفتاحية المراد البحث عنها ضمن الصفحة، وكذلك توضع الكلمة المفتاحية نفسها ضمن الصفحة.
  2. تاريخ الصفحة نفسها، أي قدم هذه الصفحة على الإنترنت؛ حيث تحصل الصفحات الجديدة -عادةً- على تقييم بيج رانك مرتفع على اعتبار أنها تحمل معلومات أكثر حداثة وأكثر دقة. قد تكون الصفحات الجديدة أيضاً ذات محتوى غير موثوق، ولذلك يُؤخذ هذا العامل بعين الاعتبار إلى جانب العوامل الأخرى. 
  3. عدد صفحات الويب الأخرى المرتبطة بالصفحة المعنية (وهو المعيار الذي تشرحه المعادلة السابقة)، أي عدد المرّات التي تم فيها الإشارة إلى صفحةٍ ما من صفحاتٍ أخرى، وهذا يُساعد بتحديد أهمية الصفحة وإعطائها تقييم بيج رانك مرتفع. يمكن تشبيه هذا العامل بكيفية تحديد أهمية ورقة علمية عن طريق عدد الاقتباسات المرتبطة بها، فكلما ازداد عدد الأوراق البحثية الأخرى التي قامت باقتباس جزءٍ أو معلومةٍ من ورقةٍ ما، كلما زادت أهمية هذه الورقة. وهنالك أمرٌ هام يجب معرفته هنا، وهو أن حساب تقييم بيج رانك الخاص بصفحةٍ ما لا يرتبط فقط بعدد الروابط المرتبطة بها من صفحاتٍ أخرى، بل أيضاً بأهمية هذه الصفحات؛ إذا حصلت صفحة ما على ارتباطٍ من صفحةٍ أخرى ذات تقييم بيج رانك مرتفع، فإن هذا سيُساعد بشكلٍ كبير على تحسين تقييم الصفحة نفسها، بينما وجود عدد كبير من الروابط لصفحات ذات أهميةٍ منخفضة وتقييم بيج رانك متدنٍ لن يُساعد كثيراً في تحسين ظهور الصفحة وحصولها على تقييمٍ مرتفع. وبالحديث عن الروابط، يجب معرفة أمر هام يتعلق بالصفحات والمواقع التي تمتلك قيمة بيج رانك عالية، وهو أنه في حال نشأ من صفحةٍ ذات قيمة بيج رانك مرتفعة عددٌ كبير من الروابط التي تشير لصفحاتٍ أخرى، فإن أهمية كل رابط ستنخفض، بينما امتلاك الصفحة لعددٍ أقل من الروابط سيجعل أهمية كل رابط أعلى. 

يمكن النظر للعامل الأخير على أنه أهم العوامل المرتبطة بكيفية حساب تقييم بيج رانك الخاص بصفحةٍ ما، حيث يُساهم هذا المعيار باستبعاد الصفحات غير المهمة ووسيلةً هامة لضمان أقل معدل غشٍ ممكن في نتائج البحث، بحيث تكون النتائج مرتبة بالفعل بحسب الصفحات الأكثر أهمية والأكثر قدرةً على توفير معلومةٍ موثوقة تم الاستعلام عنها من قبل المُستخدم. 

وفاة بيج رانك: المغالطة الكبيرة

مثلت خوارزمية بيج رانك حجر الأساس الذي استند عليه محرك بحث جوجل في بداياته. وحتى فترةٍ قريبة، كانت هذه الخوارزمية أحد أبرز المعايير التي يستهدفها أصحاب المواقع من أجل تحسين ظهور مواقعهم على صفحة نتائج محرك بحث جوجل، وذلك اعتماداً على خوارزميات تحسين محركّات البحث SEO. وعلى صعيدٍ آخر، تطوّر جوجل محرك بحثها منذ إطلاقه وحتى اليوم بشكلٍ متواصل؛ وذلك عبر إطلاق تحديثاتٍ مستمرة تعدل من كيفية تصنيف وترتيب صفحات الويب على صفحة نتائج البحث بحسب العديد من العوامل، التي لم تقتصر فقط على ارتباط صفحات الويب وعلاقتها ببعضها البعض، كما هو عليه الحال في خوارزمية بيج رانك. 

ولهذا السبب، قامت جوجل بإلغاء إضافةٍ ضمن شريط أدوات المتصفح عرفت باسم "شريط أدوات بيج رانك PageRank Toolbar" سنة 2016، الذي يتيح مشاهدة قيمة بيج رانك بشكلٍ مباشر على المتصفح لصفحة الويب التي يتم زيارتها. أرادت جوجل بهذه الخطوة توضيح أمرٍ هام لكل المعنيين والمهتمين بمجال تحسين ظهور المواقع وصفحات الويب على محركات البحث، وهو أن خوارزمية بيج رانك لم تعد العامل الأول والحاسم في كيفية ظهور المواقع على صفحة نتائج البحث. 

المشكلة التي خلّفتها خطوة جوجل هي أنها خلقت مغالطة كبيرة يقع فيها الكثيرون حتى اليوم؛ فعند السؤال عن بيج رانك، ستجد الكثير من المقالات أو الأخبار حول "وفاة" بيج رانك و"قتل" جوجل لبيج رانك، وهو ما يُوحي للذهن بأن جوجل قد تخلت عن الخوارزمية الأساسية التي انطلقت منها وميّزتها عن باقي محركات البحث، وهو أمرٌ غير صحيح. ما قامت جوجل بقتله هو أداة بيج رانك التي كانت متوافرة ضمن المتصفحات، أما الخوارزمية نفسها فهي لا تزال موجودة ضمن نواة محرك بحث جوجل، ولا تزال تلعب دوراً هاماً في كيفية ترتيب صفحات الويب عند البحث عن كلمةٍ مفتاحية ما، ولو أنها ليست وحدها. 

ما بعد بيج رانك: خوارزميات بحث جوجل اليوم

ضمن أحد الفيديوهات التعليمية القصيرة التي توضح فيها شركة جوجل كيفية ترتيب النتائج عند البحث عن أمرٍ ما مثل وصفة تحضير طبق اللازانيا، فإن محرك البحث يعتمد على "خوارزميات" تتفاعل مع بعضها البعض، والتي تأخذ بعين الاعتبار حوالي 200 عامل مختلف. هكذا إذن، لم يعد بالإمكان النظر لبيج رانك على أنها العامل الوحيد والحاسم في كيفية قيام جوجل بتصنيف صفحات الويب وعرضها. 

من الأمثلة الشهيرة على العوامل التي تؤخذ بعين الاعتبار هو تحديث باندا الذي أطلقته جوجل سنة 2011 كوسيلةٍ لترشيح صفحات الويب ذات المحتوى المتدني ومن ثم تم دمجه كلياً في خوارزمية البحث سنة 2016، وبذلك أصبح هنالك عاملٌ يأخذ بعين الاعتبار جودة المحتوى المتوافر ضمن صفحة الويب نفسها، خصوصاً من ناحية حشو الصفحات بالكلمات المفتاحية دون أي فائدة، وهي الوسيلة التي اعتمدها الكثيرون من أصحاب المواقع كأداةٍ للتحايل على بيج رانك وتحسين ظهور مواقعهم على صفحة نتائج البحث. قامت جوجل أيضاً بإطلاق تحديثٍ آخر هام عرف باسم بينجوين سنة 2012، الذي يوفر آليةً تعمل بالزمن الحقيقي للكشف عن المواقع التي تقوم بتوليد روابط وهمية، ومن ثم تم إطلاق تحديث بيجوين سنة 2013 الذي يهدف لربط المعلومات المتعلقة بالمستخدم نفسه مثل موقعه الجغرافيّ والمسافة التي تفصله عن المخدمات قبل عرض نتائج البحث. 

لا تتوقف التحديثات التي تطلقها جوجل والتي تهدف لتحسين آلية عمل خوارزمية البحث الخاصة بها، وبذلك أصبحت العوامل التي تؤخذ بعين الاعتبار عند تصنيف صفحات الويب تشمل أموراً مثل: استخدام معايير الحماية والأمان، وسرعة تحميل صفحة الويب، وتصميم صفحة الويب وسهولة التصفح، وارتباط صفحة الويب بجهةٍ رسمية (مثل المواقع الحكومية)، وحشو صفحة الويب بالإعلانات، وتلاؤم صفحة الويب مع التصفح باستخدام الأجهزة المحمولة كالهواتف الذكية والحواسيب اللوحية، ووجود فهرس محتويات لتسهيل القراءة، وتواجد ملفات الوسائط المتعددة كالصور التوضيحية والفيديوهات، وغيرها الكثير.

المحتوى محمي