كيف يمكن كشف النصوص التي يولدها الذكاء الاصطناعي؟

هل قام الذكاء الاصطناعي بتأليف هذه الجملة أمْ لا؟ أدى بوت الدردشة الجديد من أوبن أيه آي (OpenAI)، والذي يحمل اسم تشات جي بي تي (ChatGPT)، إلى ظهور مشكلة جديدة: كيف يمكننا معرفة ما إذا كانت المواد التي نقرأها على الإنترنت هي نتاج تأليف البشر أم الآلة؟

قام أكثر من مليون شخص باستخدام تشات جي بي تي منذ إطلاقه في أواخر نوفمبر/ تشرين الثاني. وقد نشر هذا البوت الحماسة في أوساط الذكاء الاصطناعي، وأصبح من الواضح أن النصوص التي ولدها الذكاء الاصطناعي باتت أكثر انتشاراً على الإنترنت من ذي قبل. فقد بدأ الناس باستخدام هذه البرامج لتأليف النكات، وكتابة قصص الأطفال، وصياغة رسائل البريد الإلكتروني بصورة أفضل.

ماذا يعني ظهور تشات جي بي تي؟

يعتبر تشات جي بي تي متفرعاً عن النموذج اللغوي الكبير جي بي تي 3 من أوبن أيه آي، والذي يجيب عن الأسئلة الموجهة إليه بتوليد إجابات قريبة بشكل مذهل من الكتابة البشرية. ويكمن سحر هذه النماذج اللغوية الكبيرة، وخطرها أيضاً، في أنها توهم المستخدم بتقديم إجابات ومعلومات صحيحة. فالجمل التي تنتجها تبدو سليمة، وتتضمن النوع الصحيح من الكلمات بالترتيب الصحيح. ولكن الذكاء الاصطناعي لا يدرك معنى أي من هذه الكلمات. فهذه النماذج تعمل عن طريق التنبؤ بالكلمة الأكثر ترجيحاً للورود ضمن جملة. ولا تملك أدنى فكرة عن صحة أو خطأ أي شيء، وتقدم المعلومات على أنها صحيحة، حتى لو لم تكن كذلك.

وفي عالم الإنترنت الذي يسوده الاستقطاب والتوتر السياسي، يمكن أن تؤدي هذه الأدوات التي تعتمد على الذكاء الاصطناعي إلى تشويه المعلومات التي نستهلكها، وإذا تم إطلاقها في العالم الحقيقي ضمن منتجات حقيقية، فقد تكون العواقب وخيمة.

اقرأ أيضاً: بوت تشات جي بي تي مبدع وسهل الاستخدام لكن مخاطره كثيرة

ونحن في حاجة ماسة إلى وسائل للتفريق بين النصوص التي كتبها البشر، وتلك التي كتبها الذكاء الاصطناعي، وذلك لمواجهة حالات إساءة استخدام هذه التكنولوجيا، كما تقول آيرين سليمان، وهي مديرة السياسات في شركة الذكاء الاصطناعي هاغينغ فيس (Hugging Face)، وقد كانت باحثة ذكاء اصطناعي في أوبن أيه آي، ودرست كشف مخرجات الذكاء الاصطناعي عند إطلاق جي بي تي 2، وهو النسخة السابقة من جي بي تي 3.

وستكون الأدوات الجديدة ضرورية أيضاً لفرض الحظر على النصوص والكتل البرمجية التي ألّفها الذكاء الاصطناعي، مثل الحظر الذي تم إعلانه مؤخراً من قبل منصة ستاك أوفرفلو (Stack Overflow)، وهي موقع ويب يلجأ إليه المبرمجون لطلب المساعدة. يستطيع تشات جي بي تي تقديم الإجابات عن الأسئلة البرمجية بثقة، ولكنه لا يقدم إجابات صحيحة على الدوام. ويمكن أن تؤدي التعليمات البرمجية الخاطئة إلى برمجيات مليئة بالأخطاء والأعطال، وهو أمر قد يكون إصلاحه مكلفاً، بل وفائق الصعوبة.

وقد قال ناطق باسم ستاك أوفرفلو إن مراقبي الشركة يعملون على "فحص آلاف التقارير التي يقدمها متابعو الموقع باستخدام عدة أدوات، بما فيها نماذج الاستدلال (heuristics) ونماذج الكشف (detection)"، ولكنه لم يقدم المزيد من التفاصيل.

وفي الواقع، فإن هذا العمل فائق الصعوبة، ويكاد تطبيق الحظر يكون مستحيلاً.

مجموعة أدوات الكشف الحالية

توجد أساليب متنوعة قام الباحثون بتجريبها لكشف النصوص التي ولدها الذكاء الاصطناعي. ومن الطرق الشائعة استخدام البرامج لتحليل الميزات المختلفة من النص، مثل انسيابية الصياغة وتكرار كلمات معينة ووجود أنماط في علامات الترقيم أو طول الجمل.

تقول دافني إيبوليتو، وهي من كبار الباحثين في جوجل براين (Google Brain)، وهي وحدة أبحاث التعلم العميق في الشركة: "إذا كان لديك مقدار كافٍ من النص، فإن أحد المؤشرات التي يمكن كشفها بسهولة هي تكرار أداة التعريف المستخدمة في الإنجليزية ’The‘ لمرات كثيرة للغاية".

وبما أن النماذج اللغوية الكبيرة تعمل عن طريق التنبؤ بالكلمة التي سترد تالياً ضمن الجملة، فمن المرجح أن تكثر من استخدام الكلمات الشائعة مثل "the" و"it" و"is" بدلاً من الكلمات النادرة والغريبة. وهذا هو بالضبط النص الذي يمكن لأنظمة الكشف المؤتمتة كشفه بسهولة، كما وجدت إيبوليتو مع فريق من الباحثين في جوجل في ورقة بحثية منشورة في 2019.

ولكن دراسة إيبوليتو وجدت أيضاً شيئاً مثيراً للاهتمام: فالمشاركون البشر في الدراسة كانوا يميلون إلى الاعتقاد بأن هذا النوع من النصوص "المتقنة" يبدو أفضل صياغة ويحتوي على عدد أقل من الأخطاء، وبالتالي فإنه من المرجح أنه من تأليف البشر.

براعة هذه النماذج تكشفها

ولكن في الواقع، فإن النصوص البشرية مليئة بالأخطاء المطبعية ومتقلبة للغاية، وتستخدم عدة أساليب مختلفة مع العديد من الكلمات العامية، أما من الناحية الأخرى فإن "النماذج اللغوية لا ترتكب الأخطاء المطبعية إلا في حالات نادرة للغاية. وهي أكثر براعة بكثير في توليد النصوص المثالية"، كما تقول إيبوليتو.

وتضيف: "أن وجود خطأ مطبعي في النص يمثل دلالة قوية على أنه من تأليف البشر".

يمكن أيضاً استخدام النماذج اللغوية الكبيرة نفسها لكشف النصوص التي ولدها الذكاء الاصطناعي. ومن أكثر الأساليب نجاحاً لتطبيق هذه الطريقة إعادة تدريب النموذج على بعض النصوص التي كتبها البشر، ونصوص أخرى كتبتها الآلات، بحيث يتعلم الفروق بين النوعين، كما يقول رئيس الأبحاث الكندي في قسم معالجة اللغات الطبيعية والتعلم الآلي في جامعة بريتيش كولومبيا، محمد عبدالغني، والذي درس الكشف أيضاً.

أما عالم الحاسوب في جامعة تكساس سكوت آرونسون، والمنتدب كباحث في أوبن أيه آي لمدة سنة، فقد كان يعمل على تطوير علامات مائية خاصة للنصوص الأكثر طولاً، والتي تولدها نماذج مثل جي بي تي 3، "وهي بمثابة إشارة سرية غير ملحوظة في اختيار الكلمات، ويمكن استخدامها لإثبات أنها من تأليف جي بي تي لاحقاً"، كما كتب في مدونته.

وقد أكد ناطق باسم أوبن أيه آي أن الشركة تعمل على العلامات المائية، وقال إن سياساتها تنص على أن المستخدمين يجب أن يكونوا قادرين على كشف النصوص التي ولدها الذكاء الاصطناعي بسهولة "وبطريقة واضحة وسهلة للجميع".

حلول تقنية

ولكن هذه الحلول التقنية لا تخلو من بعض المحاذير. فمعظمها لا يكاد يصلح للتعامل مع الجيل الجديد من النماذج اللغوية، لأن هذه الحلول مبنية على جي بي تي 2 أو نماذج أقدم منه. كما أن الكثير من هذه الأدوات المستخدمة للكشف تعمل بشكل أفضل عند وجود مقدار كبير من النصوص، وتتراجع فعاليتها في بعض حالات الاستخدام الضرورية، مثل بوتات الدردشة أو برامج المساعدة المخصصة للبريد الإلكتروني، والتي تتضمن حوارات قصيرة، ما ينقص من كمية البيانات التي يمكن تحليلها. كما أن استخدام النماذج اللغوية الكبيرة للكشف يتطلب أيضاً حواسيب عالية القدرات، إضافة إلى إمكانية استخدام نظام الذكاء الاصطناعي نفسه، وهو ما لا تسمح به الشركات التكنولوجية، كما يقول عبدالمجيد.

وكلما كان النموذج أكثر ضخامة وقدرة، ازدادت صعوبة بناء نماذج ذكاء اصطناعي قادرة على التمييز بين النصوص التي كتبها البشر وتلك التي كتبتها الآلات، كما تقول سليمان.

"إن أكثر ما يثير القلق هو أن نتائج تشات جي بي تي حققت مستويات عالية للغاية، ونماذج الكشف عاجزة ببساطة عن مجاراته. إنها مطاردة لا نهاية لها"، كما تقول.

تدريب العين البشرية

تقول سليمان إنه لا توجد طريقة مؤكدة ومضمونة النتائج لكشف النصوص التي كتبها الذكاء الاصطناعي. وتضيف: "لن تكون نماذج الكشف الوسيلة المتبعة لكشف النصوص الآلية، تماماً كما لن تكون فلاتر الحماية الوسيلة المتبعة للحماية من التحيزات".

وحتى تكون لدينا فرصة لحل المشكلة، يجب أن نحسن الحلول التقنية، ونزيد الشفافية المتعلقة بتفاعل البشر مع الذكاء الاصطناعي، كما يجب على البشر تعلم كيفية ملاحظة الدلالات المميزة للجمل التي كتبها الذكاء الاصطناعي.

تقول إيبوليتو: "من الرائع أن يكون لدينا ملحق برمجي في متصفح كروم أو غيره من المتصفحات التي نستخدمها حتى يكشف النصوص المولدة آلياً على صفحات الويب".

وقد بدأ البعض بتطوير أشياء مماثلة. فقد قام الباحثون في جامعة هارفارد وشركة آي بي إم (IBM) بتطوير أداة تحمل اسم "غرفة اختبار النماذج اللغوية العملاقة" (GLTR)، والتي تساعد البشر عن طريق تحديد المقاطع التي يُحتمل أنها من تأليف برنامج حاسوبي.

ولكن الذكاء الاصطناعي بدأ يخدعنا أيضاً. فقد وجد باحثون في جامعة كورنيل أن البشر يعتبرون أن المقالات الإخبارية المزيفة التي يولدها جي بي تي 2 هي صادقة بنسبة 66%.

كما وجدت دراسة أخرى أن البشر غير المدربين قادرون على كشف النصوص التي ولدها جي بي تي 3 بشكل صحيح بمعدل يتوافق فقط مع ما تسفر عنه فرصة عشوائية.

أما الخبر السار فهو أنه يمكن تدريب البشر على تحسين قدرتهم على كشف نصوص الذكاء الاصطناعي، كما تقول إيبوليتو. فقد قامت ببناء لعبة لاختبار عدد الجمل التي يستطيع الحاسوب توليدها قبل أن يدرك اللاعب أنها جمل مؤلفة بطريقة آلية، ووجدت أن البشر يتحسنون تدريجياً مع مرور الوقت.

وتقول: "إذا رأيت الكثير من النصوص المولدة آلياً وحاولت تحديد الجوانب غير المنطقية المميزة لها، فسوف تتحسن تدريجياً في أداء هذه المهمة". ومن إحدى الطرق هي ملاحظة الجمل غير المقنعة، كأن يقول الذكاء الاصطناعي إن صنع كوب من القهوة يستغرق 60 دقيقة.

مسألة وقت لا أكثر ونحن الطرف الخاسر

لقد ظهر جي بي تي 3، وهو الإصدار السابق لتشات جي بي تي، في العام 2020. وتقول أوبن أيه آي إن تشات جي بي تي ليس سوى نسخة تجريبية، ولكن ظهور نماذج مماثلة عالية القدرة، وتطويرها وإطلاقها ضمن منتجات حقيقية، مثل بوتات الدردشة المستخدمة في خدمة العملاء والرعاية الصحية، ليس سوى مسألة وقت لا أكثر. وهنا مكمن المشكلة، فإن سرعة التطور في هذا المجال تعني أن جميع الطرق المستخدمة لكشف النصوص التي ولدها الذكاء الاصطناعي سرعان ما ستصبح عديمة الفائدة. إنه أشبه بسباق تسلح، وحتى الآن، نحن الطرف الخاسر.