هل يمكن للبيانات الزائفة المساعدة في حل مشكلة تحيز تعلم الآلة؟

7 دقائق

البيانات هي شريان الحياة بالنسبة للذكاء الاصطناعي، وعلى الرغم من التقديرات التي تقول: "سيولّد العالم بيانات على مدى الأعوام الثلاثة المقبلة أكثر مما ولّده على مدى 30 عاماً مضت"، فليس لدينا بيانات تكفي لتغذية قطاع الذكاء الاصطناعي المزدهر. وهنا يمكننا طرح هذا السؤال: هل يمكن للبيانات الزائفة المساعدة في حل مشكلة تحيز تعلم الآلة؟

يمكن لمنصة أمازون التنبؤ بعاداتك في الشراء لأن خوارزمياتها مدربة على البيانات التي جُمعت من 112 مليون مستخدم مشترك في خدمتها "أمازون برايم" في الولايات المتحدة، ومن عشرات الملايين من المستخدمين الآخرين في العالم الذين يزورون الموقع ويستخدمون خدماته الأخرى على نحو دوري. ويعتمد عمل منصة "جوجل" في الإعلانات على النماذج التنبؤية التي تغذيها مليارات من عمليات البحث التي يعالجها محرك البحث الخاص بها يومياً، إلى جانب بيانات 2.5 مليار جهاز يعمل على نظام التشغيل "أندرويد". وقد تحولت شركات التقنية العملاقة إلى قوى احتكارية هائلة للبيانات، ما منحها ميزات لا تضاهى في مجال الذكاء الاصطناعي.

استخدام البيانات المصطنعة

إذن، كيف ستقوم شركات الذكاء الاصطناعي الصغيرة بتدريب نماذجها لتتمكن من الدخول في المنافسة؟ تعتبر عملية جمع البيانات مكلفة وتستغرق وقتاً طويلاً. خذ مثلاً سلسلة مستشفيات تريد تسخير الذكاء الاصطناعي لتحسين عمليات تشخيص الأمراض، لكنها ممنوعة من استخدام بيانات مرضاها وفقاً للقوانين الفيدرالية ومخاوف الأمن السيبراني؛ أو وكالة تصنيف ائتماني تسعى لوضع نماذج عن السلوكيات الخطرة من دون استخدام المعلومات الحساسة الخاصة بالمستهلكين.

يزداد الميل نحو خيار استخدام البيانات المصطنعة التي ينشئها الذكاء الاصطناعي لاستخدامها في تدريب الذكاء الاصطناعي غالباً. هذا الخيار أسرع وأقل كلفة، لكنه ينطوي على خطورة تتمثل في أن الأساليب المتبعة في توليد بيانات شبيهة بالواقعية قد تؤدي إلى تفاقم التحيزات المؤذية في هذه البيانات.

تأتي البيانات المجهزة للذكاء الاصطناعي في عدة أشكال، بدءاً من صور وجوه زائفة لا يمكن تمييزها عن الوجوه الحقيقية، وصولاً إلى أنماط شراء واقعية من الناحية الإحصائية لآلاف الزبائن الخياليين. يقول المسؤولون التنفيذيون في كثير من شركات تجهيز البيانات للذكاء الاصطناعي، ومنها شركات راسخة مثل "جين روكيت" (GenRocket) وشركات ناشئة مثل "موستلي أيه آي" (Mostly AI) و"هيزي" (Hazy) و"أيه آي ريفيري" (AI Reverie)، إن شركاتهم شهدت نمواً هائلاً في الطلب على مجموعات البيانات الجاهزة للذكاء الاصطناعي على مدى العامين الماضيين فقط. يمكن للشركات أيضاً اللجوء إلى برامج مفتوحة المصدر، مثل "سينثيا" (Synthea)، التي يستعين بها باحثون في مؤسسات تشمل وزارة شؤون المحاربين القدماء في الولايات المتحدة من أجل إنشاء تاريخ طبي واقعي لآلاف المرضى الوهميين بهدف دراسة أنماط الأمراض وطرق العلاج.

شهد المسؤولون التنفيذيون في عدة شركات ربحية للبيانات المجهزة للذكاء الاصطناعي، إلى جانب شركة "مايتر كورب" (Mitre Corp) التي صنعت برنامج "سينثيا"، ازدياداً هائلاً في الاهتمام بخدماتها على مدى الأعوام الماضية. ويترافق هذا الاهتمام المتنامي مع خطر محتمل فيما يخص الخوارزميات التي تستخدم بصورة متزايدة في عملية صناعة قرارات مصيرية، والتي تثبت بصورة متزايدة أيضاً أنها تؤدي إلى تفاقم التمييز العنصري والتمييز بحسب النوع وغيره من أنواع التمييز في الكثير من المجالات ذات التأثير الكبير، كالتعرف على الوجه والتنبؤ بالأعمال الإجرامية وصناعة القرار في الرعاية الصحية. يقول الباحثون إنه في كثير من الحالات، يؤدي تدريب الخوارزمية على بيانات من صنع الخوارزميات إلى زيادة الخطورة المتمثلة في إدامة نظام الذكاء الاصطناعي للتحيز المؤذي.

تقول ديب راجي، زميلة في مجال التكنولوجيا في معهد "أيه آي ناو" (AI Now Institute): "يمكن لعملية إنشاء مجموعات البيانات المصطنعة أن تؤدي إلى تفاقم التحيز بناء على البيانات الواقعية التي استنبطت منها وطريقة استنباطها. ويمكن أن تفيد البيانات المصطنعة في تقييم الخوارزميات، لكنها قد تكون خطيرة ومضللة عندما يتعلق الأمر بتدريب هذه الخوارزميات".

إنشاء البيانات المجهزة للذكاء الاصطناعي

إحدى أكثر الطرق شيوعاً في إنشاء البيانات المجهزة للذكاء الاصطناعي هي استخدام شبكات التوليد التنافسية (GAN)، وهي أسلوب طور عام 2014، حيث يتم تحريض شبكتين عصبيتين على التنافس فيما بينهما. أولاً، يتم تدريب الشبكتين على مجموعات متماثلة من البيانات الحقيقية، ثم تعمل الشبكة الأولى (أو النموذج المولّد للبيانات) على تجهيز بيانات واقعية بدرجة كافية لخداع الشبكة الثانية وجعلها تصدق أن هذه البيانات المجهزة للذكاء الاصطناعي أُخذت من نفس مصدر بيانات التدريب الحقيقية. وكلما ازداد تنافس الشبكتين في حلقة ردود الفعل الإيجابية هذه، كان أداؤهما لمهمتهما أفضل، ما يؤدي إلى مجموعة بيانات مجهزة للذكاء الاصطناعي لا يمكن لنظم الإحصاء أو العين المجردة تمييزها عن البيانات الحقيقية.

[su_heading size="20" align="right" margin="0"]

"ليس الأمر نزاعاً بين الدقة والإنصاف، بل يجب أن تمثل البيانات العالم كما يجب أن يكون"

جوليا ستويانوفيتش، أستاذة في علوم الكمبيوتر في جامعة نيويورك

[/su_heading]

بيد أن أسلوب شبكات التوليد التنافسية قد ينطوي على بعض المشكلات، والسبب هو أن "الخوارزميات كسولة، وتحاول دائماً العثور على أسهل طريقة للتنبؤ"، وفقاً لما يقوله هاري كين، الرئيس التنفيذي لشركة "هيزي" التي تجهز البيانات للذكاء الاصطناعي من أجل شركات الخدمات المالية والاتصالات والحكومات، ومقرها في مدينة لندن. وفيما يتعلق باستنباط مجموعات البيانات حول أشخاص حقيقيين، غالباً ما تحقق شبكات التوليد التنافسية هدفها عن طريق اتباع الطريق الأقل مقاومة وتجاهل المكونات الخارجية (كالنساء وذوي البشرة الملونة في مجموعة بيانات الرؤساء التنفيذيين للشركات المدرجة على قائمة "فورتشن 500"، مثلاً). يحدث هذا النوع من التمييز في الخوارزميات التي تتعامل مع البيانات الحقيقية. خذ مثلاً نظام التوظيف المؤتمت الذي اضطرت شركة "أمازون" لإيقافه بعد أن اكتشفت أنه يفضل الرجال على النساء بسبب بيانات التوظيف التاريخية التي تم تدريبه عليها، غير أن البيانات المجهزة للذكاء الاصطناعي التي ولّدتها شبكات التوليد التنافسية قادرة على تضخيم هذا التحيز.

اقرأ أيضاً في المفاهيم الإدارية: معنى الـ (Administrative Assistant) أو "المساعد الإداري"

بيّن باحثون من جامعة ولاية أريزونا هذه الظاهرة في دراسة أجريت في شهر يناير/كانون الثاني. (إفصاح: جامعة ولاية أريزونا هي شريكة مع مجلة "سليت" (Slate) ومؤسسة "نيو أميركا" في مجلة "فيوتشر تنس"). إذ بدؤوا بمجموعة بيانات مؤلفة من 17,245 صورة لأساتذة في الهندسة من الجامعات في جميع أنحاء الولايات المتحدة، وكان 80% من هؤلاء الأساتذة ذكوراً، و76% منهم من ذوي البشرة البيضاء. ثم دربوا شبكة التوليد التنافسية على مجموعة البيانات هذه من أجل إنشاء صور مجهزة للذكاء الاصطناعي. وماذا كانت النتيجة؟ كانت مجموعة بيانات مؤلفة من وجوه واقعية للغاية، 93% منها ذكور و99% منها لأشخاص ذوي بشرة بيضاء.

بلغة الذكاء الاصطناعي، كانت الصور المجهزة للذكاء الاصطناعي التي ولدتها شبكة التوليد التنافسية "دقيقة". فقد بدت الوجوه لأنظمة الإحصاء والعين البشرية المجردة وجوه أشخاص بالغين، لا تشكيلات عشوائية من وحدات البيكسل أو أي شيء آخر. لكن في مفهوم العالم الحقيقي، كانت مجموعة البيانات بمجملها مضللة لأن التحيز الموجود مسبقاً قد تضخم. ولو أن هذه البيانات استخدمت لتوظيف أساتذة جدد في الهندسة لأدت إلى استمرار التمييز على أرض الواقع.

تقول جوليا ستويانوفيتش، أستاذة علوم الكمبيوتر في جامعة نيويورك إن النزاع في القطاع يجب ألا يكون "بين الدقة والإنصاف"، أي أن الشركات ليست مجبرة على الاختيار بينهما، بل "يجب أن تمثل البيانات العالم كما يجب أن يكون".

البيانات المجهزة للذكاء الاصطناعي

مؤخراً، وجهت بعض شركات البيانات المجهزة للذكاء الاصطناعي اهتمامها نحو توليد مجموعات بيانات دقيقة ومنصفة في آن. خذ مثلاً شركتي "هيزي" و"موستلي أيه آي"، والأخيرة يقع مقرها في مدينة فيينا. أجرت الشركتان تجارب على طرق التحكم بالتحيزات في البيانات للحدّ من الأذى فعلياً، وهو ما يسميه كين "تشويه الواقع"، من أجل ضمان ألا يشق أي نمط مؤذ في بيانات العالم الواقعي طريقه إلى مجموعة البيانات المجهزة للذكاء الاصطناعي.

وفي شهر مايو/أيار، نشرت شركة "موستلي أيه آي" نقاشاً حول اثنتين من تجاربها. في التجربة الأولى، بدأ الباحثون ببيانات الدخل المأخوذة من تعداد سكان الولايات المتحدة لعام 1994، وحاولوا توليد مجموعة بيانات مجهزة للذكاء الاصطناعي تكون فيها نسب الرجال والنساء الذين يجنون أكثر من 50,000 دولار سنوياً متساوية أكثر مما هي في البيانات الحقيقية. وفي التجربة الثانية، استخدم الباحثون بيانات من برنامج التنبؤ بمعاودة الإجرام المثير للجدل من أجل توليد مجموعة بيانات مجهزة للذكاء الاصطناعي لا ترتبط الميول الإجرامية فيها بالنوع الاجتماعي ولون البشرة. لم تكن مجموعات البيانات الناتجة "دقيقة" تماماً، فالنساء كن يجنين أقل مما يجنيه الرجال في عام 1994 (وحتى اليوم)، ويتم اعتقال الرجال ذوي البشرة السمراء بمعدلات أعلى من الفئات الأخرى، لكن مجموعات البيانات هذه تتمتع بفائدة أكبر كثيراً في الحالات التي يكون الهدف عدم إدامة التمييز العنصري أو التمييز بحسب النوع. فمجموعة البيانات مجهزة للذكاء الاصطناعي التي تم توليدها بهدف سد الثغرة في الدخل بين النساء والرجال قد تساعد شركة ما في اتخاذ قرارات منصفة أكثر بشأن أجور موظفيها، على سبيل المثال.

لا تزال هذه التجارب في مراحلها الأولى، لكن حتى وإن أصبحت الطرق المتبعة في إجرائها مثالية فثمة عائق كبير في وجه تبنيها على نطاق واسع. إذ يبدو أن الشركات لا تهتم بالإنصاف بنفس قدر اهتمامها بالدقة مقارنة بالبيانات الأصلية. يقول دانييل سوكوب، عالم البيانات الذي يقود بحث الإنصاف في شركة "موستلي أيه آي": "يبدو أن هناك أولوية أخرى دائماً، فأنت تساوم على جني الإيرادات مقابل القيام بتنبؤات عادلة، وأعتقد أنها عملية صعبة في هذه المواقف وهذه المؤسسات. ففي نهاية المطاف، شركة موستلي أيه آي ليست شركة ناشئة صغيرة فقط بل هي شركة ربحية في المقام الأول".

تعلق مجموعة الباحثين الأكاديميين الذين يجرون أبحاثاً على التحيز في البيانات المجهزة للذكاء الاصطناعي آمالها على أن الأساليب الجديدة ستؤدي إلى إنشاء نماذج ذكاء اصطناعي تعكس العالم الذي نود أن نعيش فيه وتوضحه بدلاً من أن تتابع مسيرة قرون من التمييز العنصري والتمييز المنهجي بحسب النوع. يقول بيل هاوي، الأستاذ في جامعة واشنطن الذي يدرس البيانات المجهزة للذكاء الاصطناعي: "أنا متفائل جداً ولا أرى أي سبب يمنعنا من استخدام هذه الأساليب كي نقوم بعمل أفضل مما نقوم به الآن". بيد أنه حتى الآن، لا يطلب من يشترون البيانات المجهزة للذكاء الاصطناعي بيانات أكثر إنصافاً، ولا تبدي الشركات رغبة بالاستثمار في تطوير الأساليب المتبعة في إنشاء هذه البيانات من دون ذاك الحافز المالي.

بعد أشهر من نشر باحثي جامعة ولاية أريزونا دراسة توضح أن شبكة التوليد التنافسية تسبب تفاقم التحيزات القائمة على العرق والنوع الاجتماعي في مجموعة بيانات صور الوجوه، أثبتت مجموعة من المرشحين لنيل شهادة الدكتوراه في جامعة ستانفورد أنهم قادرون على فعل العكس. ففي بحثهم الذي قدموه في 14 يوليو/تموز في المؤتمر الدولي لتعلم الآلة، تحدثوا عن نهج سمح لهم بإدخال سمات معينة، تمثلت في هذه الحالة بالنوع الاجتماعي ولون الشعر، على أنها سمات تتمتع بأهمية أكبر من غيرها في توليد مجموعة أكثر تنوعاً من صور الوجوه.

اقرأ أيضاً: طلب المساعدة من الآخرين

أخبر باحثو مجموعة جامعة ستانفورد مجلة "سليت" أن عليهم إنجاز كثير من العمل قبل أن يصبح النهج جاهزاً لتوليد بيانات يمكن استخدامها على نحو مسؤول في تدريب الخوارزميات وإيقاع آثار حقيقية في تحيزات تعلم الآلة. ويمثل نجاح فريق الباحثين هذا دليلاً على أنه من الممكن استخدام البيانات المجهزة للذكاء الاصطناعي كأداة تعمل على نحو مدروس للحدّ من التحيز المؤذي بدلاً من تغذيته من دون قصد، في حال قرر قطاع صناعة البيانات المجهزة للذكاء الاصطناعي وعملاؤه السعي لتحقيق هذا الهدف فعلاً. هذه المشكلة لا يمكن حلها عن طريق نظام خوارزمي أو أسلوب واحد، وسيتطلب حلها على النحو الصحيح انتباهاً مستمراً من جانب المستخدمين النهائيين للبيانات المجهزة للذكاء الاصطناعي، لأنهم في أفضل موقع لمعرفة التحيزات التي تظهر في مجالاتهم، ويملكون الرغبة للتغلب عليها.