توصلت دراسة جديدة إلى أن ملايين الصور لجوازات السفر وبطاقات الائتمان وشهادات الميلاد وغيرها من الوثائق التي تحتوي على معلومات شخصية يمكن التعرف إليها في واحدة من أكبر مجموعات تدريب الذكاء الاصطناعي المفتوحة المصدر.
حيث عثرت الدراسة على آلاف الصور -بما في ذلك الوجوه التي يمكن التعرف إليها- في مجموعة فرعية صغيرة من مجموعة البيانات داتا كومب كومون بول (DataComp CommonPool)، وهي مجموعة تدريب رئيسية للذكاء الاصطناعي لتوليد الصور، مجمعة من الإنترنت. ونظراً لأن الباحثين لم يدققوا سوى 0.1% من بيانات كومون بول، فإنهم يقدرون أن العدد الحقيقي للصور التي تحتوي على معلومات مميزة للهوية الشخصية، بما في ذلك الوجوه ووثائق الهوية، يبلغ مئات الملايين. نشرت الدراسة التي توضح تفاصيل الاختراق على موقع أركايف في وقت سابق من هذا الشهر.
اقرأ أيضاً: كيف تروض أوبن أيه آي نماذجها المتمردة؟ تقنيات لإعادة تأهيل ذكاء اصطناعي منحرف
كل ما تنشره على الإنترنت معرض للاستخراج
يقول زميل ما بعد الدكتوراة في أخلاقيات الذكاء الاصطناعي في جامعة كارنيغي ميلون وأحد المشاركين في تأليف الدراسة، ويليام أغنيو، إن خلاصة الدراسة هي أن "أي شيء تضعه على الإنترنت يمكن استخراجه، بل وربما هو معرض للاستخراج بصورة حتمية".
وقد وجد الباحثون آلاف الحالات من وثائق الهوية التي جرى التحقق من صحتها -بما في ذلك صور بطاقات الائتمان ورخص القيادة وجوازات السفر وشهادات الميلاد- بالإضافة إلى أكثر من 800 وثيقة طلب عمل جرى التحقق من صحتها (بما في ذلك السير الذاتية ورسائل التعريف)، والتي جرى التأكد، من خلال منصة لينكدإن وعمليات البحث الأخرى على شبكة الإنترنت، من أنها مرتبطة بأشخاص حقيقيين. (في العديد من الحالات الأخرى، لم يكن لدى الباحثين الوقت الكافي للتحقق من صحة الوثائق أو لم يتمكنوا من ذلك بسبب مشاكل مثل وضوح الصورة).
وقد كشف عدد من السير الذاتية عن معلومات حساسة بما في ذلك حالة الإعاقة، ونتائج التحريات عن الخلفية، وتواريخ ميلاد المعالين وأماكن ميلادهم، والعرق. عندما ربط الباحثون السير الذاتية بأشخاص لديهم حضور على الإنترنت، وجدوا أيضاً معلومات الاتصال، والمعرفات الحكومية، والمعلومات الاجتماعية والديموغرافية، وصور الوجوه، وعناوين المنازل، ومعلومات الاتصال بأشخاص آخرين (مثل الجهات المرجعية).
ما هي داتا كومب كومون بول؟
عند إصدار داتا كومب كومون بول في عام 2023، كانت مجموعة البيانات هذه، التي ضمت 12.8 مليار عينة من البيانات، أكبر مجموعة بيانات متاحة للعامة من أزواج الصور والنصوص، والتي غالباً ما تستخدم لتدريب النماذج التوليدية التي تحول النصوص إلى صور. وبينما صرح القائمون عليها أن كومون بول مخصصة للأبحاث الأكاديمية، فإن ترخيصها لا يحظر استخدامها تجارياً أيضاً.
أنشئت كومون بول لتكون بمثابة متابعة لمجموعة البيانات لايون-5 بي (LAION-5B)، التي استخدمت لتدريب نماذج تشمل ستيبل ديفيوجن (Stable Diffusion) وميدجورني (Midjourney). وهي تعتمد على مصدر البيانات نفسه: استخلاص البيانات من الإنترنت الذي أجرته مؤسسة كومون كرول غير الربحية بين عامي 2014 و2022.
بينما لا تكشف النماذج التجارية في كثير من الأحيان عن مجموعات البيانات التي تدربت عليها، فإن مصادر البيانات المشتركة بين داتا كومب كومون بول ولايون-5 بي تعني أن مجموعات البيانات متشابهة، وأن المعلومات المميزة للهوية الشخصية نفسها تظهر على الأرجح في لايون-5 بي، وكذلك في نماذج أخرى تابعة مدربة على بيانات كومون بول. لم يرد باحثو كومون بول على الأسئلة الموجهة إليهم عبر البريد الإلكتروني.
وبما أنه جرى تنزيل داتا كومب كومون بول أكثر من مليوني مرة على مدار العامين الماضيين من الإنترنت، فمن المرجح أن "ثمة العديد من النماذج اللاحقة المدربة كلها على مجموعة البيانات هذه تحديداً"، وذلك على حد قول طالبة الدكتوراة في علوم الكمبيوتر في جامعة واشنطن والمؤلفة الرئيسية للورقة البحثية، راشيل هونغ. ومن شأن ذلك أن يكرر مخاطر الخصوصية المماثلة.
اقرأ أيضاً: كيف يؤثّر نقص بيانات التدريب في كفاءة نماذج الذكاء الاصطناعي التوليدي؟
النوايا الحسنة ليست كافية
تقول عالمة الإدراك وأخلاقيات التكنولوجيا التي تقود مختبر المساءلة في كلية ترينيتي في العاصمة الإيرلندية دبلن، أبيبا بيرهان: "يمكنك أن تفترض أن أي بيانات واسعة النطاق يجري جمعها من الإنترنت تضم على الدوام محتوى ينبغي ألا يكون موجوداً"، سواء كانت معلومات مميزة للهوية الشخصية (PII)، أم صوراً للاعتداء الجنسي على الأطفال، أم خطاب كراهية (وهو ما وجده البحث الذي أجرته بيرهان في لايون-5 بي).
في الواقع، كان القيمون على داتا كومب كومون بول هم أنفسهم على دراية بأنه من المحتمل أن تظهر معلومات مميزة للهوية الشخصية في مجموعة البيانات، واتخذوا بعض التدابير للحفاظ على الخصوصية، بما في ذلك الكشف عن الوجوه وطمسها تلقائياً. ولكن في مجموعة البيانات المحدودة الخاصة بفريق هونغ، وجدوا أكثر من 800 وجه لم تلتقطها الخوارزمية وتحققوا من صحتها، وقدروا أن الخوارزمية أغفلت في المجمل 102 مليون وجه في مجموعة البيانات بأكملها. من ناحية أخرى، لم يستخدموا مرشحات كان من الممكن أن تتعرف على مجموعة من سلاسل المعلومات المميزة للهوية الشخصية المعروفة، مثل رسائل البريد الإلكتروني أو أرقام الضمان الاجتماعي.
يقول أغنيو: "من الصعب للغاية إجراء عملية الفلترة بكفاءة. إذ كان عليهم إحراز تقدم كبير في الكشف عن معلومات مميزة للهوية الشخصية وإزالتها، وهو ما لم يعلنوا عنه بعد، ليتمكنوا من فلترة هذه المعلومات بفعالية".
ثمة مشاكل أخرى تتعلق بالخصوصية لا يعالجها تمويه الوجه. فعلى الرغم من تطبيق فلتر تمويه الوجه تلقائياً، فإنه اختياري ويمكن إزالته. بالإضافة إلى ذلك، غالباً ما تحتوي التعليقات التوضيحية التي غالباً ما تكون مصاحبة للصور، وكذلك البيانات الوصفية للصور، على معلومات شخصية إضافية، مثل الأسماء والمواقع الدقيقة.
وثمة تدبير آخر لتخفيف الخصوصية تتيحه منصة هاغينغ فيس (Hugging Face)، وهي منصة توزع مجموعات بيانات التدريب وتستضيف لديها كومون بول، والذي يتكامل مع أداة تسمح نظرياً للأشخاص بالبحث عن معلوماتهم الخاصة وإزالتها من مجموعة البيانات. ولكن كما يشير الباحثون في ورقتهم البحثية، فإن هذا يتطلب من المستخدمين معرفة أن بياناتهم موجودة أصلاً. عندما طلب من فلوران دودينز الذي يعمل لدى شركة هاغينغ فيس التعليق، قال إن "تعظيم خصوصية أصحاب البيانات عبر منظومة الذكاء الاصطناعي يتطلب نهجاً متعدد الطبقات يشمل، على سبيل المثال لا الحصر، الأداة المذكورة"، وإن المنصة "تعمل مع مجتمع المستخدمين لدينا لتوجيه بوصلة العمل نحو نهج أكثر خصوصية".
على أي حال، ربما لا تكفي إزالة بياناتك من مجموعة بيانات واحدة فحسب. تقول الأستاذة المساعدة في القانون في كلية الحقوق بجامعة نيو هامبشاير، تيفاني لي: "حتى لو اكتشف شخص ما أن بياناته قد استخدمت في مجموعة بيانات تدريبية ومارس حقه في الحذف، فإن القانون غير واضح من الناحية الفنية بشأن ما يعنيه ذلك". وتضيف: "إذا اكتفت المؤسسة بحذف البيانات من مجموعات بيانات التدريب فحسب -دون حذف النموذج المدرب أو دون إعادة تدريبه- فسيكون الضرر قد وقع على الرغم من ذلك".
خلاصة القول، كما يقول أغنيو: "إذا جمعت البيانات من الإنترنت، فستكون لديك بيانات خاصة ضمنها. حتى لو فلترت هذه البيانات، ستظل لديك بيانات خاصة ضمنها، وذلك بسبب نطاق البيانات التي تغطيها. وهذا أمر يتعين علينا، نحن باحثي التعلم الآلي، بصفته مجالاً تخصصياً، أن نتعامل معه بجدية".
إعادة النظر في الموافقة
بنيت كومون بول اعتماداً على بيانات مستمدة من الإنترنت جمعت بين عامي 2014 و2022، ما يعني أن العديد من الصور يعود تاريخها على الأرجح إلى ما قبل عام 2020، عندما جرى إصدار تشات جي بي تي. لذا، حتى لو كان من الممكن لبعض الأشخاص نظرياً أن يوافقوا على إتاحة معلوماتهم بصورة علنية لأي شخص على الإنترنت، فمن غير الممكن أن يكونوا قد وافقوا على استخدام بياناتهم لتدريب نماذج ذكاء اصطناعي ضخمة لم تكن موجودة بعد.
وبما أن برامج جمع البيانات من الإنترنت غالباً ما تجمع البيانات من بعضها بعضاً، فإن الصور التي يحملها مالكها في الأصل إلى موقع محدد غالباً ما تجد طريقها إلى مستودعات الصور الأخرى السحابية. يقول أغنيو: "قد أحمل ملفاً ما على الإنترنت، ثم بعد عام تقريباً، أرغب في حذفه، ولكن هذا الحذف لا يجدي نفعاً".
ووجد الباحثون أيضاً العديد من الأمثلة على المعلومات الشخصية للأطفال، بما في ذلك صور شهادات الميلاد وجوازات السفر والحالة الصحية، ولكن في سياقات تشير إلى أن مشاركتها كانت لأغراض محدودة.
يقول مدير الذكاء الاصطناعي والخصوصية في اتحاد المستهلكين في أميركا، بن وينترز: "إن هذا يسلط الضوء حقاً على الخطيئة الأصلية لأنظمة الذكاء الاصطناعي المبنية على البيانات العامة، فهي استخلاصية ومضللة وخطيرة على الأشخاص الذين يستخدمون الإنترنت في إطار واحد من المخاطر، ولم يفترضوا أبداً أنه سيجري تجميعها بالكامل على يد مجموعة تحاول إنشاء مولد للصور".
اقرأ أيضاً: هل يمكن تدريب الروبوتات باستخدام الصور المولّدة بالذكاء الاصطناعي؟
إيجاد سياسات مناسبة
في نهاية المطاف، تدعو الورقة البحثية مجتمع التعلم الآلي إلى إعادة التفكير في الممارسة الشائعة المتمثلة في تجميع البيانات من الإنترنت بطريقة عشوائية، وتسلط الضوء أيضاً على الانتهاكات المحتملة لقوانين الخصوصية الحالية المتمثلة في وجود معلومات مميزة للهوية الشخصية في مجموعات بيانات التعلم الآلي الضخمة، بالإضافة إلى أوجه القصور التي تعانيها تلك القوانين والتي تحد من قدرتها على حماية الخصوصية.
تقول المشرعة الهولندية التي تحولت إلى خبيرة في سياسات التكنولوجيا وتعمل حالياً زميلة في مركز السياسات السيبرانية في جامعة ستانفورد، ماريتجي شخاكه: "لدينا اللائحة العامة لحماية البيانات في أوروبا، ولدينا قانون حماية البيانات في كاليفورنيا، ولكن لا يوجد حتى الآن قانون فيدرالي لحماية البيانات في أميركا، ما يعني أيضاً أن الأميركيين المختلفين لديهم حماية حقوق مختلفة".
إلى جانب ذلك، تنطبق قوانين الخصوصية هذه على الشركات التي تستوفي معايير محددة تتعلق بالحجم والخصائص الأخرى. وهي لا تنطبق بالضرورة على الباحثين مثل أولئك الذين كانوا مسؤولين عن إنشاء داتا كومب كومون بول وإدارتها.
وحتى قوانين الولاية التي تعالج الخصوصية، مثل قانون خصوصية المستهلك في ولاية كاليفورنيا، تستثني المعلومات "المتاحة للعامة". لطالما اعتمد باحثو التعلم الآلي على مبدأ مفاده أنه إذا كانت المعلومات متاحة عبر الإنترنت، فهي معلومات عامة ولم تعد معلومات خاصة، ولكن ثمة أملاً لدى هونغ وأغنيو وزملائهما بأن يتحدى بحثهم هذا الافتراض.
تقول هونغ: "ما وجدناه هو أن المعلومات ’المتاحة للعامة‘ تتضمن الكثير من الأشياء التي قد يعتبرها الكثير من الناس خاصة، مثل السير الذاتية والصور وأرقام بطاقات الائتمان وبطاقات الهويات المختلفة وقصص الطفولة ومدونة الأسرة. هذه على الأرجح معلومات لا يرغب الناس في استخدامها في أي مكان ولأي غرض كان".
تقول شخاكه إنها تأمل لهذا البحث أن "يقرع ناقوس الخطر ويحدث تغييراً".