شركة أوبن أيه آي تواجه عواقب جشعها في جمع البيانات

لدى شركة أوبن أيه آي (OpenAI) أقل من أسبوع للامتثال لقوانين حماية البيانات الأوروبية بعد حظر مؤقت لخدماتها في إيطاليا وإجراء سلسلة من التحقيقات في دول أخرى من الاتحاد الأوروبي. إذا لم تلتزم الشركة بهذا الموعد، فقد تضطر لدفع غرامات باهظة أو حذف مجموعة من البيانات، وقد تُحظر أيضاً.

لكن قال الخبراء لموقع إم آي تي تكنولوجي ريفيو إن التزام شركة أوبن أيه آي بقواعد الاتحاد الأوروبي سيكون ضرباً من المستحيل. يعود ذلك إلى الطريقة السيئة التي اتبعتها الشركة في جمع البيانات التي استُخدمت لتدريب نماذج الذكاء الاصطناعي التي تطورها، والتي تنطوي على جمع هذه البيانات على نحو عشوائي من الإنترنت.

تنص الحكمة السائدة في مجال الذكاء الاصطناعي على أنه كلما ازدادت كمية بيانات التدريب، كان ذلك أفضل. خصصت شركة أوبن أيه آي مجموعة بيانات يبلغ حجمها 40 غيغابايت من النصوص لتدريب نموذج جي بي تي-2 (GPT-2) (الجيل الثاني من تقنية المحول المدرَّب لتوليد النصوص). ودرب الخبراء في الشركة نموذج جي بي تي-3 (GPT-3، الجيل الثالث من تقنية المحول المدرَّب لتوليد النصوص) الذي يعتمد عليه نموذج تشات جي بي تي (ChatGPT) باستخدام مجموعة بيانات يبلغ حجمها 570 غيغابايت. لم تصرح شركة أوبن أيه آي عن الحجم الفعلي لمجموعة البيانات التي استخدمتها لتدريب نموذج جي بي تي-4 الجديد،

ولكن يبدو أن هذه الرغبة في تطوير النماذج الأكبر ستعود بنتائج عكسية على الشركة. في الأسابيع القليلة الماضية، بدأ العديد من هيئات حماية البيانات الحكومية الغربية بإجراء تحقيقات حول الطريقة التي تجمع فيها شركة أوبن أيه آي البيانات التي يعمل وفقها نموذج تشات جي بي تي وتعالجها. يعتقد الخبراء في هذه الهيئات أن الشركة جمعت البيانات الشخصية للمستخدمين، مثل الأسماء وعناوين البريد الإلكتروني، واستخدمتها من دون موافقتهم.

منعت إحدى الهيئات الرقابية الإيطالية استخدام تشات جي بي تي في إجراء احترازي، وتحقق الجهات الرقابية الفرنسية والألمانية والإيرلندية والكندية المتخصصة بالبيانات حالياً في الطريقة التي تجمع فيها أنظمة الشركة البيانات وتستخدمها. ينشئ حالياً مجلس حماية البيانات الأوروبي، وهو المؤسسة الأم لسلطات حماية البيانات الأوروبية، فريق عمل على مستوى الاتحاد الأوروبي لتنسيق التحقيقات حول تشات جي بي تي وإنفاذ القوانين المتعلقة به.

منحت السلطات الإيطالية شركة أوبن أيه آي مهلة امتدت إلى 30 أبريل/ نيسان 2023 للامتثال للقانون. يعني ذلك أن هذه الشركة ستضطر إلى طلب الموافقة من المستخدمين على جمع بياناتهم، أو إثبات أن لديها "مصلحة مشروعة" في جمعها. سيتعين على شركة أوبن أيه آي أيضاً تفسير الطريقة التي يستخدم وفقها نموذج تشات جي بي تي البيانات لهؤلاء الأشخاص، كما يجب عليها أن تمنحهم القدرة على تصحيح المعلومات الخاطئة المتعلقة بهم التي يولّدها النموذج وحذف بياناتهم إذا رغبوا في ذلك والاعتراض على أن يستخدمها النموذج.

إذا لم تتمكن شركة أوبن أيه آي من إقناع السلطات بأن طرق استخدامها للبيانات قانونية، فقد تُحظر في دول معينة أو حتى في الاتحاد الأوروبي كله. يقول خبير الذكاء الاصطناعي في الوكالة الفرنسية لحماية البيانات، أليكسي ليوتييه (Alexis Leautier)، إنه من المحتمل أيضاً أن تضطر الشركة إلى دفع غرامات باهظة أو حذف النماذج والبيانات المستخدمة لتدريبها.

تقول أستاذة قانون الإنترنت في جامعة نيوكاسل، ليليان إدواردز (Lilian Edwards)، إن انتهاكات شركة أوبن أيه آي صارخة لدرجة أنه من المحتمل نقل القضية إلى محكمة العدل التابعة للاتحاد الأوروبي، وهي أعلى محكمة في الاتحاد الأوروبي. قد تستغرق الإجابة عن الأسئلة التي طرحتها هيئة رقابة البيانات الإيطالية سنوات.

معركة بمخاطر عالية

المخاطر التي تواجهها شركة أوبن أيه آي حالياً أكبر من أي وقت مضى. اللائحة التنظيمية الأوروبية العامة لحماية البيانات هي نظام حماية البيانات الأكثر صرامة في العالم، واستخدمتها بلدان عديدة حول العالم لصياغة اللوائح التنظيمية الخاصة بها. ستولي الجهات الرقابية في كل مكان في العالم، من البرازيل إلى كاليفورنيا، اهتماماً كبيراً بما سيحدث في قضية شركة أوبن أيه آي، ويمكن أن تغير النتائج الطرق التي تجمع فيها شركات الذكاء الاصطناعي البيانات جذرياً.

ستضطر هذه الشركة إلى التعامل بشفافية أكبر فيما يتعلق بممارساتها المتعلقة بالبيانات، وإثبات أنها تتبع إحدى الطريقتين القانونيتين لجمع بيانات تدريب خوارزمياتها؛ موافقة المستخدمين أو "المصلحة المشروعة".

يبدو من غير المرجح أن تتمكن شركة أوبن أيه آي من ادعاء أنها حصلت على موافقة الأشخاص عند جمع بياناتهم، ولذلك، ليس لديها سوى حجة أن لها مصلحة مشروعة لفعل ذلك. تقول إدواردز إن هذا سيفرض على الشركة تقديم حجة مقنعة للجهات الرقابية تبين أن نموذج تشات جي بي تي ضروري لدرجة تبرر جمع البيانات من دون الحصول على الموافقات.

قال خبراء في شركة أوبن أيه آي لموقع إم آي تي تكنولوجي ريفيو إنهم يعتقدون أن ممارسات الشركة متوافقة مع قوانين الخصوصية، كما صرحت الشركة في مقال على الإنترنت أنها تعمل على إزالة المعلومات الشخصية من بيانات التدريب عند الطلب و"عندما يكون ذلك ملائماً".

تقول الشركة أيضاً إنها دربت النماذج التي تطورها باستخدام المحتوى المتوفر للعوام والمحتوى المرخص والمحتوى الذي يولّده المراجعون من البشر. لكن بالنسبة لللائحة التنظيمية الأوروبية العامة لحماية البيانات، هذه المعايير غير كافية.

تقول إدواردز: "تتبع الولايات المتحدة سياسة تنص على أن البيانات التي تُنشر للعموم لا تعدّ خاصة، ولكن القوانين الأوروبية مختلفة تماماً". تمنح اللائحة التنظيمية الأوروبية العامة لحماية البيانات المواطنين حقوقاً بصفتهم "أصحاب البيانات"، مثل حق الحصول على المعلومات حول كيفية جمع البيانات واستخدامها والمطالبة بإزالتها من الأنظمة المختلفة، حتى لو كانت عامة في المقام الأول.

البحث عن إبرة في كومة قش

تواجه شركة أوبن أيه آي مشكلة أخرى أيضاً. تقول الهيئة الحكومية الإيطالية إن هذه الشركة لا تتمتع بالشفافية حول الطريقة التي اتبعتها في جمع بيانات المستخدمين خلال مرحلة ما بعد التدريب، مثل البيانات الموجودة في سجلات المحادثات بين المستخدمين ونموذج تشات جي بي تي.

يقول ليوتييه: "ما يقلقني للغاية هو الطريقة التي تستخدم فيها هذه الشركة البيانات التي يقدمها المستخدمون في أثناء الدردشة". يميل الناس إلى مشاركة المعلومات الشخصية الخاصة مع بوت الدردشة هذا؛ إذ إنهم يخبرونه عن أمور مثل حالتهم العقلية وصحتهم أو آرائهم الخاصة. يقول ليوتييه إن هذا يمثّل مشكلة إذا عرض تشات جي بي تي هذه البيانات الحساسة على الآخرين. يضيف ليوتييه قائلاً إنه يمكن للمستخدمين المطالبة بحذف سجلات محادثاتهم بموجب القوانين الأوروبية.

تقول الباحثة في مجال الذكاء الاصطناعي وكبيرة علماء الأخلاقيات في شركة هاغينغ فيس الناشئة (Hugging Face)، مارغريت ميتشل (Margaret Mitchell)، التي عملت مديرة مشاركة لقسم أخلاقيات الذكاء الاصطناعي في شركة جوجل (Google) سابقاً، إنه سيكون من شبه المستحيل أن تحدد شركة أوبن أيه آي بيانات المستخدمين وتزيلها من نماذجها.

تضيف ميتشل قائلة إن هذه الشركة كانت قادرة على تجنّب الكثير من المشكلات من خلال إنشاء سجل بيانات ذو جودة عالية وتوثيق البيانات فيه منذ البداية، في حين يشيع في قطاع الذكاء الاصطناعي إنشاء مجموعات البيانات لنماذج الذكاء الاصطناعي من خلال مسح الويب عشوائياً والاستعانة بمصدر خارجي لإنجاز عمليات مثل إزالة البيانات المكررة أو نقاط البيانات غير ذات الصلة والتخلص من البيانات غير المرغوب فيها وتصحيح الأخطاء المطبعية. نتيجة لهذه الآليات والحجم الهائل لمجموعات البيانات التي تتشكل بهذه الطريقة، لا تملك شركات التكنولوجيا سوى معلومات ضئيلة عن البيانات التي استخدمتها لتدريب نماذجها.

تقول رائدة الأعمال التي درست الممارسات المتعلقة ببيانات الذكاء الاصطناعي، نيثيا سامباسيفان (Nithya Sambasivan)، التي عملت سابقاً عالمة أبحاث في شركة جوجل، إن هذه الشركات لا توثق طريقة جمع بيانات تدريب الذكاء الاصطناعي ووصفها، حتى أنها تجهل محتويات مجموعات البيانات هذه.

البحث عن بيانات أشخاص إيطاليين في مجموعة بيانات التدريب الواسعة الخاصة بنموذج تشات جي بي تي يشبه البحث عن إبرة في كومة قش، وحتى إذا تمكنت شركة أوبن أيه آي من حذف بيانات المستخدمين، فليس من الواضح ما إذا كانت ستحذف نهائياً. بيّنت الدراسات أن مجموعات البيانات تبقى على الإنترنت فترة طويلة بعد حذفها، لأن نُسخ البيانات الأصلية تبقى مخزنة على شبكة الإنترنت.

تقول ميتشل: "لا تزال الطرق العصرية لجمع البيانات بدائية للغاية". يعود ذلك إلى أن الباحثين عملوا بجد على تطوير التقنيات الحديثة في نماذج الذكاء الاصطناعي بينما بقيت طرق جمع البيانات كما هي تقريباً خلال العقد الأخير.

وفقاً لميتشل، يركّز الباحثون في مجتمع الذكاء الاصطناعي بشكل مبالغ فيه على تطوير نماذج الذكاء الاصطناعي على حساب أي مجال آخر، تقول: "هناك مشكلة ثقافية في مجال التعلم الآلي تتمثل في أن الباحثين يرون العمل على البيانات سخيفاً، بينما يرون أن العمل على النماذج هو الأهم".

توافق سامباسيفان قائلة: "عموماً، يحتاج العمل على البيانات إلى الكثير من الدعم الإضافي".