كيف يمكن حل مشكلات التعميم والتحيز في خوارزميات الذكاء الاصطناعي؟

4 دقائق
التحير الخوارزمي
حقوق الصورة: shutterstock.com/Bakhtiar Zein

ترد في الصحف والمجلات سواء على صفحات الإنترنت أو المطبوعة منها، العديد من المقالات والأخبار والتقارير التي تغطي العديد من المجالات والتخصصات، إذ تخصص الصحف أقساماً في مواقعها لكل مجال على حدة، فيوجد قسم للموضوعات السياسية، وقسم للموضوعات الاجتماعية، وآخر للثقافية، وهكذا. وتقوم الصحف والمجلات بهذا التصنيف من باب التيسير على المستخدم والقارئ، ليستطيع الوصول للأخبار أو المقالات التي تهمه بشكل أسرع. 

تصنيف المواضيع بين البشر والخوارزميات

على الرغم من أن تقسيم مواقع الإنترنت صفحاتها بحسب المجالات، كالسياسة والثقافة والرياضة، يسهل على القارئ معرفة المجال الذي يتصفحه حالياً، فإن العقل البشري لديه القدرة مسبقاً على تمييز الموضوعات والمجالات التي تندرج تحتها، حتى وإن لم يتم ذكر ذلك صراحةً. فبمجرد قراءة أحدهم موضوعاً ما يتحدث عن فريق كرة قدم وإنجازاته، يمكن مباشرة إدراك أن ذلك الموضوع يندرج تحت المجال الرياضي. كما أن تمييز خبر يتحدث عن محفل أدبي أقيم في عاصمة إحدى الدول، لا يتطلب الكثير من الجهد لمعرفة أنه موضوع ثقافي.

ليس ذلك فحسب، بل إن العقل البشري لديه من المهارة ما يجعله يتعرف على مجالات الأخبار والمقالات التي تتحدث عن أحداث جديدة بالنسبة له، فمن الممكن لأحدهم التعرف على المقالات الرياضية، حتى وإن كان يسمع باسم فريق كرة القدم، محور الحديث، للمرة الأولى. كما أنه بالإمكان إدراك أن مقالاً ما يتحدث عن الاقتصاد على الرغم من أن الشركات التي ترد في ذلك المقال لم يسمع بها أحدهم قط. 

اقرأ أيضاً: التحيز في أنظمة الذكاء الاصطناعي: كيف يمكن للآلة أن تكون متحيزة؟

قدرة العقل البشري على تمييز المعلومات الفريدة

قدرة الإنسان على التعرف على مجال وتخصص ما يقرأه، تعتمد في كثير من حالاتها على تمييزه الكلمات الفريدة في طابعها، ومن خلال تلك الكلمات الفريدة، يستطيع معرفة أن ما يقرأه هو في مجال الاقتصاد أو السياسة أو الاجتماع أو الرياضة، حتى وإن لم يسمع بالشركة أو حتى الدولة أو الفريق محل الخبر.

هذه المهارة البشرية يمكن وصفها بالقدرة على التعميم، أي أن العقل البشري وبالاطلاع على موضوعات محددة، وبتحليلها ومعرفة مفرداتها، يستطيع تعميم خبرته على الموضوعات الأخرى، إذ إنه وبقراءة عدد من الموضوعات، تتكون لدى الإنسان حصيلة من المفردات الاقتصادية، يميز بها التقارير الاقتصادية، وحصيلة من المفردات السياسية، يميز بها الأحداث السياسية، وحصيلة من المفردات الرياضية يميز بها الأخبار الرياضية. 

القدرة على تصنيف الموضوعات، من خلال المفردات المميزة، وعلى الرغم من أنها دليل على الذكاء البشري، فإنها ليست بذات الفائدة لأنظمة الذكاء الاصطناعي، بل على النقيض، هي إحدى المشكلات التي تعاني منها خوارزميات الذكاء الاصطناعي، والتي تمنعها من القدرة على تعميم خبراتها كما يفعل البشر. 

هناك أنواع من خوارزميات الذكاء الاصطناعي، والتي يمكنها المساهمة في تصنيف المقالات والأخبار، والتي تستخدم في أنظمة الأرشفة والحفظ مثلاً، وهذه الخوارزميات عليها التعرف على موضوع المقال أو الخبر كمدخلات، لتقوم باقتراح تصنيف أو قسم كمخرجات، هذا النوع من الأنظمة يطلق عليه خوارزميات تصنيف النصوص، وهي تعنى بفرز النصوص إلى أقسامها، وتستخدم في العادة من قبل الشركات التي لديها كم كبير من الخطابات أو التقارير.

من أكبر مستخدمي خوارزميات تصنيف النصوص، الصحف الورقية، والتي قامت في الآونة الأخيرة برقمنة مطبوعاتها -خصوصاً القديمة منها تماماً- كما فعلت نيويورك تايمز (New York Times) حين قامت بتحويل جميع محتويات صحفها منذ عام 1850 م إلى نسخ رقمية، يمكن البحث فيها وتصفحها على الإنترنت. 

الخوارزميات تعاني من التعميم والتحيز 

على الرغم من تحقيق التجارب في مجال خوارزميات تصنيف النصوص تقدماً ملحوظاً في السنوات القليلة الماضية، فإنها ما زالت تعاني من مشكلة تعميم خبرتها على الموضوعات الحديثة، التي لم تطّلِع عليها من قبل، وقد وجد الباحث ديفيانش كوشيك (Divyansh Kaushik) في بحث نشره مع فريق من جامعة كارنيجي ميلون الأميركية (Carnegie Mellon University) في عام 2020، أن خوارزميات تصنيف النصوص تقل كفاءتها حين تستخدم مع أخبار أو مقالات حديثة، بسبب اعتمادها على وجود مفردات محددة داخل النص تبحث عنها الخوارزمية، لتتمكن من تصنيف المقال كسياسي أو اجتماعي أو رياضي أو غيره. 

وجد بحث جامعة كارنيجي ميلون، أن العديد من الخوارزميات تعتمد على عناصر محددة لتتخذ قرارها، وفي حالة تصنيف المقالات، فإن تلك العناصر هي المفردات المميزة، وبالتالي فقد ذكر الباحثون أن مثل هذه الطريقة تجعل الخوارزمية أكثر عرضة للإخفاق، خصوصاً في حال لم تجد المفردات التي تبحث عنها، بل إن الأسوأ من ذلك أن حرص الخوارزمية على إيجاد كلمات محددة تبني عليها قرارها، يجعلها في بعض الحالات متحيزة لنوع معين من التصنيفات. 

اقرأ أيضاً: التحيز في لينكدإن: الذكاء الاصطناعي هو المشكلة والحل في الوقت نفسه

الحل في الكيف وليس الكم

قد يتبادر إلى الذهن أن الحل لمشكلة إخفاق الخوارزميات بسبب تحيزها لمفردات معينة، أن تتم تغذيتها بالمزيد من المفردات، بحيث ترتفع حصيلتها اللغوية إن صح التعبير، غير أن الدكتور ليني يانغ (Linyi Yang) ذكر في عام 2021، في بحث نشره مع فريق من كلية دبلن الجامعية (University College Dublin) وجامعة ويستليك (Westlake University) الصينية، أن خوارزميات الذكاء الاصطناعي، ستستفيد من اتساع الحصيلة اللغوية، وليس زيادتها. بمعنى أن الخوارزميات تزيد كفاءتها إذا تم تعريضها لبيانات متنوعة، هذه البيانات تحتوي على سبيل المثال على كلمات ونقيضها لتغطي المزيد من المفردات العامة وليس التخصصية منها.

قام فريق الدكتور ليني يانغ باختبار فرضيته على خوارزميات تحليل المشاعر، والتي تعد إلى حد ما مشابهة لخوارزميات تصنيف النصوص، فتم تزويد الخوارزمية ببيانات متنوعة تشمل مفردات كثيرة ترد في مختلف المشاعر التي يراد تدريب الخوارزمية على التعرف عليها. غير أن الفريق البحثي واجه مشكلة أخرى هذه المرة، وهي عدم توفر بيانات كافية لمفردات ونقيضها في كل صنف من أصناف المشاعر، وبالتالي وقعت الخوارزمية في ذات المشكلة التي كانوا يحاولون تجاوزها. 

لذلك قام الفريق البحثي بتجربة صناعة بيانات افتراضية، أي أنهم قاموا حرفياً بتعديل البيانات التي يمتلكونها، بحيث يزداد حجم بيانات كل صنف يراد لخوارزمية التصنيف التعرف عليه، بمعنى أن خوارزمية تحليل المشاعر، يتم تزويدها بجملة كـ"الجو جيد هذا اليوم" ومن ثم يتم تعديل الجملة يدوياً أو آلياً لتكون "الجو سيئ هذا اليوم"، وبهذا فقد اطلعت الخوارزمية على نوعين مختلفين من تصنيف المشاعر، أحدهما إيجابي والآخر سلبي. 

الطريقة المقترحة من فريق الدكتور ليني تفترض أنه وكما أن الخوارزمية ستتدرب على بيانات تصف حالة ما، فإنه وبتعديل البيانات ستتعرف الخوارزمية على وصف الحالات الأخرى، وبهذه الطريقة فعلاً تمكن الباحثون من إيجاد وسيلة تزيد من كفاءة أنظمة الذكاء الاصطناعي، بل وتقلل من التحيز بها، كل ذلك حصل بتعريض الخوارزميات لبيانات افتراضية، هذه البيانات الافتراضية مبنية من بيانات حقيقية ومعدّلة بشكل يدوي أو آلي.

المحتوى محمي