غالباً ما يعتمد صانعو السياسات على عمل علماء الاجتماع للتنبؤ بكيفية تأثير سياسات معينة على المُخرجات الاجتماعية مثل معدلات التوظيف أو الجريمة، وتكمن الفكرة في أنهم إذا تمكنوا من فهم كيف يمكن للعوامل المختلفة أن تغير مسار حياة شخص ما، فسيكون باستطاعتهم عندئذٍ اقتراح إجراءات لتعزيز الوصول إلى أفضل المُخرجات.
ولكن في السنوات الأخيرة، تزايد اعتماد صانعي السياسات على التعلم الآلي، الذي يحمل إمكانات واعدة بإنتاج تنبؤات أكثر دقةً من خلال معالجة كميات أكبر حجماً من البيانات. ويتم استخدام هذه النماذج الآن من أجل التنبؤ باحتمال القبض على المدعى عليه لارتكابه جريمة أخرى، أو احتمال تعرض طفل لخطر الإساءة له وإهمال رعايته في المنزل. ويقوم الافتراض على أنه عند تزويد خوارزمية ببيانات كافية حول حالة معينة، فإنها ستجري تنبؤات أكثر دقة من تلك التي يُجريها البشر أو الأدوات الأساسية للتحليل الإحصائي.
واليوم، هناك دراسة جديدة نُشرت في مجلة الأكاديمية الوطنية للعلوم تُلقي بظلال من الشك على مدى الفعالية الحقيقية لهذا النهج؛ حيث طلب ثلاثة علماء اجتماع في جامعة برينستون من مئات الباحثين أن يتنبؤوا بـ 6 سيناريوهات لما ستؤول إليه حياة الأطفال والآباء والأُسر باستخدام ما يقارب 13,000 نقطة بيانات متعلقة بأكثر من 4000 عائلة. وفي المحصلة، لم يتمكن أي من الباحثين من تحقيق مستوى معقول من الدقة، بغض النظر عما إذا كانوا قد استخدموا أساليب إحصائية بسيطة أو أحدث تقنيات التعلم الآلي.
تقول أليس شيانج، رئيسة قسم أبحاث الإنصاف والمساءلة في منظمة الشراكة حول الذكاء الاصطناعي غير الربحية: "تُبرز هذه الدراسة حقاً هذه الفكرة القائلة بأن أدوات التعلم الآلي ليست عصا سحرية في نهاية المطاف".
عمد الباحثون إلى استخدام بيانات من دراسة علم الاجتماع المسماة دراسة الأسر الهشة ورفاهية الأطفال، التي استمرت لمدة 15 عاماً بقيادة سارة ماكلاناهان، وهي أستاذة علم الاجتماع والشؤون العامة في جامعة برينستون وأحد المؤلفين الرئيسيين للدراسة الجديدة. وقد سعت الدراسة الأصلية إلى فهم كيف يمكن أن يتحول مسار حياة الأطفال المولودين لوالدَين غير متزوجين بمرور الوقت، حيث تم اختيار العائلات بشكل عشوائي بناء على الأطفال الذين ولدوا في مستشفيات مدن أميركية كبيرة خلال عام 2000، وتمت متابعتهم وجمع بياناتهم عندما بلغت أعمارهم 1 و3 و5 و9 و15 سنة.
ثم قامت ماكلاناهان وزملاؤها ماثيو سالجانيك وإيان لوندبرغ بتصميم تحدٍّ باستخدام التعهيد الجماعي للحصول على التنبؤات المتعلقة بـ 6 مخرجات في المرحلة النهائية من الدراسة التي اعتبرها الباحثون مهمةً من الناحية الاجتماعية، وشملت هذه المخرجات: متوسط درجات الأطفال في المدرسة، ومدى جرأتهم ومواظبتهم، أو مثابرتهم الذاتية في المدرسة، والمستوى العام للفقر في منازلهم. وقد تم إعطاء المشاركين في التحدي من جامعات مختلفة جزءاً فقط من البيانات لتدريب خوارزمياتهم، بينما حجب منظمو التحدي بعض البيانات من أجل استخدامها في التقييمات النهائية. وعلى مدى خمسة أشهر، قام مئات الباحثين، بمن فيهم علماء الحاسوب والإحصائيون وعلماء الاجتماع الحسابي، بتقديم أفضل ما لديهم من تقنيات التنبؤ.
لكن أياً من تقنياتهم لم تكن قادرة على تحقيق دقة عالية في التنبؤ بأي من المُخرجات، مما يؤكد أن هذه النتائج لم تكن محض صدفة. ويقول سالجانيك، أستاذ علم الاجتماع: "لا يمكنك التقليل من أهمية ذلك من خلال تفسيره بناءً على فشل أي باحث معين أو أي تعلم آلي معين أو تقنيات الذكاء الاصطناعي". كما أن تقنيات التعلم الآلي الأكثر تعقيداً لم تحقق دقة أكبر مقارنةً بالطرق الأكثر بساطة.
بالنسبة للخبراء الذين يدرسون استخدام الذكاء الاصطناعي في المجتمع، فإن هذه النتائج ليست مفاجئة على الإطلاق؛ حيث تقول شيانج إن أعلى خوارزميات تقييم المخاطر دقةً في نظام العدالة الجنائية، على سبيل المثال، تبلغ أقصى حدود دقتها نسبة 60% أو 70%. وتضيف: "قد تبدو تلك نسبة جيدة إلى حدٍّ ما من الناحية النظرية"، ولكن معدلات تكرار ارتكاب الجرائم يمكن أن تكون أقل من 40% على أية حال. وهذا يعني أن توقع عدم حدوث تكرار لارتكاب الجرائم سوف يحقق معدل دقة يزيد عن 60%.
وبالمثل، أظهرت الأبحاث مراراً وتكراراً أنه في السياقات التي تقوم فيها الخوارزمية بتقييم المخاطر أو اختيار كيفية تخصيص الموارد، فإن الخوارزميات البسيطة القابلة للتفسير غالباً ما تتمتع بدرجة قريبة من قدرة تنبؤ التقنيات الغامضة والعصية على التفسير مثل التعلم العميق. وبالتالي، فإن الفائدة الإضافية للتقنيات الغامضة في هذه الحالة لا تستحق التكاليف الباهظة التي تنفق لجعلها قابلة للتفسير.
لا تعني هذه النتائج بالضرورة أن الخوارزميات التنبؤية -سواء أكانت قائمة على التعلم الآلي أم لا- لن تكون أبداً أدوات مفيدة في مجال صنع السياسات؛ حيث يشير بعض الباحثين، على سبيل المثال، إلى أن البيانات التي يتم جمعها لأغراض البحث في علم الاجتماع تختلف عن البيانات التي يتم تحليلها عادةً في مجال صنع السياسات.
كما أن رشيدة ريتشاردسون، وهي مديرة السياسات في معهد إيه آي ناو AI Now الذي يدرس التأثير الاجتماعي للذكاء الاصطناعي، تشير إلى وجود مخاوف بشأن طريقة صياغة مشكلة التنبؤ. وعلى سبيل المثال، فإن إمكانية تمتع الطفل "بالجرأة والمواظبة" هو حكم ذاتي بطبيعته، وقد أظهرت الأبحاث أنه "أسلوب عنصري لقياس النجاح والأداء"، على حدِّ تعبيرها. لقد دفعها هذا التفصيل على الفور إلى أن تتعجب قائلةً: "من المستحيل أن ينجح هذا الأسلوب".
كما يقر سالجانيك بمحدودية هذه الدراسة، لكنه يؤكد أنها تسلط الضوء على ضرورة أن يتوخى صانعو السياسات حذراً أكبر بشأن تقييم دقة الأدوات الخوارزمية بطريقة شفافة. ويضيف: "إن توافر كمية كبيرة من البيانات واستخدام تقنيات متقدمة للتعلم الآلي لا يضمنان الحصول على تنبؤ دقيق؛ لذا فإن صانعي السياسات الذين لا يمتلكون الكثير من الخبرة في كيفية عمل خوارزميات التعلم الآلي قد يبنون آمالاً غير واقعية على هذه التقنيات".