دليلك لتدريب نماذج الذكاء الاصطناعي دون انتهاك حقوق الملكية الفكرية والنشر

لتكون في طليعة المنافسة، تُدَّرب نماذج اللغات الكبيرة المشغّلة لبوتات الدردشة المدعومة بالذكاء الاصطناعي على مجموعة بيانات ضخمة متوافرة مجاناً عبر أنحاء الويب، ولكن لتوفير بوتات دردشة تستطيع الإجابة عن معظم المطالبات على نحو أكثر إبداعاً ودقة، بدأت الشركات بالاتجاه نحو تدريب نماذجها باستخدام محتوى محمي بحقوق الملكية الفكرية والنشر.

تُجادل شركات الذكاء الاصطناعي مثل شركة أوبن أيه آي بأنه من المستحيل تدريب نماذجها دون استخدام محتوى محمي، ما أدى إلى موجة من الدعاوى القضائية ضدها من الناشرين والكُتّاب والمؤلفين والفنانين الذين اتهموها بانتهاك حقوق النشر والملكية الفكرية لأعمالهم دون إذنهم.

تدريب نماذج اللغات الكبيرة دون انتهاك حقوق الملكية أصبح ممكناً

يعتمد دفاع شركات الذكاء الاصطناعي في الحق باستخدام المحتوى المحمي لتدريب نماذجها إلى حد كبير على المبدأ القانوني للاستخدام العادل (Fair Use)، الذي يسمح بالاستخدام المحدود للمحتوى المحمي بحقوق الطبع والنشر دون إذن المالك في ظل ظروف محددة.

إذ تؤكد شركة أوبن أيه آي أن قانون حقوق الطبع والنشر لا يحظر تدريب نماذج الذكاء الاصطناعي بمثل هذا المحتوى، ولكن مؤخراً ظهر مشروعان قدّما دليلاً على أنه يمكن تدريب نماذج اللغات الكبيرة دون الاستخدام غير المصرح به للمواد المحمية بحقوق الطبع والنشر.

فقد أعلنت منظمة فايرلي تراينيد (Fairly Trained) غير الربحية أنها منحت أول شهادة لها لنموذج لغة كبير صُمم دون انتهاك حقوق الطبع والنشر، ما يدل على أن التكنولوجيا الكامنة وراء بوتات الدردشة مثل تشات جي بي تي يمكن بناؤها بطريقة مختلفة عن المعايير المثيرة للجدل في صناعة الذكاء الاصطناعي، إذ تقدم المنظمة غير الربحية شهادة للشركات الراغبة في إثبات تدريبها نماذج الذكاء الاصطناعي الخاصة بها على البيانات التي تمتلكها أو المرخصة لها أو المتاحة مجاناً، ما يقوّض ادعاءات شركات الذكاء الاصطناعي التي تُجادل من أجل استخدام المحتوى المحمي بحقوق الملكية لتدريب نماذجها بحسب الرئيس التنفيذي للمنظمة إد نيوتن (Ed Newton)، الذي استقال من منصبه في شركة الذكاء الاصطناعي الناشئة ستابيليتي أيه آي (Stability AI) بعد اختلافه مع سياستها المتمثلة في جمع بيانات التدريب ونسخها دون إذن.

ولتأكيد إمكانية تدريب نماذج الذكاء الاصطناعي دون استخدام المحتوى المحمي، أعطت المنظمة شهادة لنموذج لغوي كبير في مجال القانون يُسمى كيه إل 3 إم (KL3M) طُور بواسطة شركة فينتشرز 237 (273 Ventures) الناشئة للاستشارات التقنية القانونية ومقرها شيكاغو، بوصفه أول نموذج ذكاء اصطناعي يُدرب ببيانات نظيفة ومسموح بها بموجب القانون لاستخدام الشركات.

إذ درّبت الشركة النموذج على مجموعة بيانات منسقة تضمنت الآلاف من المستندات القانونية والمالية والتنظيمية التي رُوجعت للامتثال لقانون حقوق الطبع والنشر، على الرغم من أن مجموعة البيانات التي دُرب عليها النموذج صغيرة مقارنة بالبيانات التي تجمعها شركة أوبن أيه آي وغيرها من شركات الذكاء الاصطناعي.

فإن أداء نموذج كيه إل 3 إم كان أفضل بكثير من المتوقع، وهو أمر يُعزى إلى مدى دقة البيانات التي فُحصت مسبّقاً، إذ يقول مطورو النموذج إن الحصول على بيانات نظيفة وعالية الجودة قد يعني أن الشركات ليست مضطرة إلى جعل نماذجها كبيرة جداً، وهو ما يمكن أن يساعد في إنشاء نماذج ذكاء اصطناعي مخصصة للمهمة التي صُممت من أجلها.

بيانات تدريب متاحة مجاناً وخالية من انتهاكات حقوق الملكية الفكرية والنشر

وفقاً للمراقبين، قد تحصل الشركات التي تتطلع إلى نموذج ذكاء اصطناعي مثل كيه إل 3 إم على مزيد من المساعدة في المستقبل في شكل مجموعات بيانات متاحة مجاناً وخالية من انتهاكات حقوق الملكية، وهو ما تعمل عليه مجموعة من الباحثين مؤخراً.

إذ أصدر فريق من الباحثين أكبر مشروع بيانات تدريب مجانية يُسمى كمون كوربوس (Common Corpus) لنماذج اللغة الكبيرة المكونة كلها من المحتوى الموجود في المجال العام، وهو عبارة عن مجموعة من النصوص بحجم البيانات نفسها المستخدمة لتدريب نموذج اللغة جي بي تي 3 المملوك لشركة أوبن أيه آي، ونُشر في منصة الذكاء الاصطناعي المفتوحة المصدر هاغينغ فيس (Hugging Face).

وبُنيت مجموعة البيانات من مصادر عامة مثل صحف الملكية العامة التي رُقمنت بواسطة مكتبة الكونغرس الأميركية والمكتبة الوطنية الفرنسية، وبحسب منسق المشروع بيير كارل لانغليه (Pierre Carl Langlais)، فإن مجموعة البيانات كبيرة بما يكفي لتدريب أحدث نماذج اللغة الكبيرة المتخصصة في القانون، إذ تحتوي مجموعة البيانات على 500 مليار رمز.

ويعد المشروع الذي نُسِّق من الشركة الفرنسية الناشئة بليّاس (Pleias)، بالتعاون مع مجموعة متنوعة من مجموعات الذكاء الاصطناعي الأخرى وبدعم من وزارة الثقافة الفرنسية، أكبر مجموعة بيانات تدريب مفتوحة المصدر متوافرة حتى الآن بلغات مختلفة ومتعددة الأغراض، ما يوفر للباحثين والشركات الناشئة فرصاً واسعة للوصول إلى مجموعة بيانات تدريب مجانية ومفتوحة المصدر لتدريب نماذجهم دون مخاوف بشأن حقوق النشر.

بيانات تدريب قديمة ولكن مفيدة لتدريب النماذج المخصصة

على الرغم من أن مجموعة بيانات التدريب المجانية عادة ما تكون قديمة ولا تتوافق مع نماذج الذكاء الاصطناعي التي تُطور من أجل الربح مثل النماذج المتوافرة حالياً، فإنها تعد حالياً أكبر مجموعة بيانات متاحة مجاناً لتدريب نماذج اللغات الكبيرة المتخصصة، ما يجعلها مورداً لا يقدر بثمن للشركات التي تريد نماذج أكثر تخصصاً مثل شركات المحاماة التي ترغب في تلخيص المستندات القانونية القديمة وصياغة العقود دون انتهاك حقوق الطبع والنشر.

علاوة على ذلك، فإن مثل هذه المشاريع يعتبر مفيداً للشركات التي تبحث فقط عن نماذج ذكاء اصطناعي أكثر تخصصاً بمجال عملها دون الحاجة إلى القلق من انتهاك حقوق الملكية، بالإضافة إلى تقديمها دليلاً ملموساً للفنانين والمبدعين والمؤلفين الذين يريدون حماية أعمالهم من شركات الذكاء الاصطناعي، وإثبات أن تدريب نماذج الذكاء الاصطناعي دون المس بأعمالهم الإبداعية لا يزال ممكناً.

ما حُجج أبرز شركات الذكاء الاصطناعي في استخدام المحتوى المحمي لتدريب نماذجها؟

منذ صعود نماذج الذكاء الاصطناعي التوليدي ونجاحها الباهر في تقديم مخرجات مشابهة لما يمكن أن يقدمه البشر، انتبه أصحاب حقوق الملكية والناشرون إلى دور أعمالهم وتأثيره الكبير في تدريب نماذج الذكاء الاصطناعي، ففي حين بدأ بعضهم بالتكيف مع الواقع الجديد من خلال استكشاف الفرص المتاحة للاستفادة من هذا الأمر من خلال ترخيص محتواهم لشركات الذكاء الاصطناعي للحصول على عائد مادي مربح، فإن بعض شركات النشر والأفراد عملوا على تصعيد الأمر من خلال رفع الدعاوى القانونية لحماية محتواهم ومنع شركات الذكاء الاصطناعي من استغلاله لتدريب نماذجها اللغوية الكبيرة، ومع ذلك لدى شركات الذكاء الاصطناعي أنواع الحجج كافة لاستخدام المحتوى المحمي بحقوق النشر والطبع، على سبيل المثال تذكر:

جوجل: تدريب نماذج الذكاء الاصطناعي يشبه قراءة كتاب

تدريب نماذج الذكاء الاصطناعي من منظورنا يشبه قراءة كتاب ثم استخراج الأفكار والحقائق منه واستخدامها لاحقاً لإنشاء أفكار جديدة، وهذا ليس انتهاكاً بل سيعزز الغرض الأساسي من قانون حقوق النشر.

ميتا: ليس من الضروري دفع المال لأصحاب الأعمال المحمية

إن فرض نظام ترخيص هو الأول من نوعه الآن سيؤدي إلى حدوث فوضى، إذ سيسعى الجميع إلى إجبار شركات الذكاء الاصطناعي على دفع ملايين الدولارات مقابل فائدة ضئيلة للغاية.

مايكروسوفت: تغيير قانون حقوق النشر قد يضر بالشركات الناشئة

من شأن أي شرط للحصول على موافقة مسبّقة للوصول إلى المحتوى المحمي لاستخدامه في تدريب نماذج الذكاء الاصطناعي أن يثبط الابتكار، كما سيعوق الشركات الناشئة الجديدة التي لا تملك الموارد اللازمة للحصول على التراخيص، ما يترك تطوير النماذج لمجموعة صغيرة من الشركات التي لديها الموارد اللازمة للتحكم في السوق.

أنثروبيك: استخدام المحتوى المحمي يطلق العنان لفوائد الذكاء الاصطناعي

نعتقد أن قوانين النشر وحقوق المؤلف الحالية جيدة ولا داعي لتغييرها، حيث إن التعاون المستمر بين أصحاب المصلحة جميعهم يمكن أن يوائم المصالح المتنوعة ويطلق العنان لفوائد الذكاء الاصطناعي مع معالجة المخاوف.

بغض النظر عما ستؤول إليه نتيجة الصراع الدائر بين شركات الذكاء الاصطناعي وأصحاب المحتوى المحمي، فإن الأمر المتوقع أن هذا الجدل قد يستمر لسنوات مقبلة، وخلالها ستظل شركات الذكاء الاصطناعي تُدرب نماذجها اللغوية على المحتوى المحمي بأساليبها المخفية.

وسيجد أصحاب الحقوق المحمية أنفسهم في سباق طويل قد لا يتمكنون من إكماله للآخر، لأن مثل هذا النوع من التقاضي مُكلف للغاية ويستغرق وقتاً طويلاً، وهو ما يجعل فرضية إيجاد تسوية تنال رضا الطرفين وارداً بشدة في المستقبل القريب.