ماذا يعني أن يتمكّن الذكاء الاصطناعي من التغلب على البشر في اختبار القدرات الإبداعية؟

أصبح الذكاء الاصطناعي أكثر براعة في اجتياز الاختبارات المصممة لقياس القدرات الإبداعية عند البشر، ففي دراسة نُشِرت في مجلة ساينتيفيك ريبورتس (Scientific Reports) مؤخراً، حققت بوتات الدردشة التي تعمل بالذكاء الاصطناعي متوسط درجات أعلى من البشر في مهمة الاستخدامات البديلة (Alternate Uses Task)، وهي اختبار شائع الاستخدام لقياس هذه القدرات.

ما الذي يعنيه اجتياز الحاسوب لاختبار مصمم للبشر؟

ستزيد هذه الدراسة احتدام الجدل القائم بين باحثي الذكاء الاصطناعي حول ما يعنيه حتى اجتياز الحاسوب لاختبار مصمم للبشر. لا تشير النتائج بالضرورة إلى أن أنظمة الذكاء الاصطناعي تمكنت من بناء قدرتها على فعل شيء يقتصر على البشر، وقد لا يتجاوز الأمر مجرد اكتساب أنظمة الذكاء الاصطناعي القدرة على اجتياز اختبارات القدرات الإبداعية. ولا يعني أنها تمتلك قدرات إبداعية على النحو الذي يفهمه البشر؛ غير أن هذه الأبحاث قد تتيح لنا تحسين تصورنا حول كيفية تعامل البشر والآلات مع المهام الإبداعية.

بدأ الباحثون بتوجيه طلب إلى 3 بوتات دردشة تعمل بالذكاء الاصطناعي؛ وهي تشات جي بي تي (ChatGPT) وجي بي تي 4 (GPT-4) من أوبن أيه آي (OpenAI)، وكوبي أيه آي (Copy.Ai) المطوَّر بالاعتماد على جي بي تي 3، لتعداد أكبر عدد ممكن من الاستخدامات للحبل، والصندوق، وقلم الرصاص، والشمعة، خلال 30 ثانية.

وتضمنت تعليماتهم النصية الموجهة إلى النماذج اللغوية الكبيرة أمراً بالتوصل إلى استخدامات جديدة ومبتكرة لكل من الأشياء السابقة، مع توضيح ينص على أن جودة الأفكار أكثر أهمية من عددها. خضع كل بوت دردشة إلى 11 اختباراً لكل من الأغراض الأربعة. إضافة إلى هذا، قدّم الباحثون التعليمات نفسها إلى 256 مشاركاً بشرياً،

واستخدم الباحثون طريقتين لتقييم إجابات كل من البشر وأنظمة الذكاء الاصطناعي. كانت الطريقة الأولى خوارزمية تصنف الاستخدامات المُقترحة لكل من الأغراض حسب قربه من استخدامه الأصلي. أما الطريقة الثانية فكانت تعتمد على تقييم كل من الإجابات على مقياس من 1 إلى 5 لمستوى الفكرة من حيث الأصالة والابتكار (حيث يدل الرقم 1 على أن الفكرة غير مبتكرة أو جديدة على الإطلاق، على حين يدل 5 على أعلى مستوى من الأصالة والابتكار) بالاعتماد على مجموعة من 6 مقيّمين من البشر (لم يكونوا يعرفون أن بعض الأجوبة مولدة باستخدام الذكاء الاصطناعي). وبعد التقييم، حسب الباحثون متوسط النتائج للبشر وأنظمة الذكاء الاصطناعي.

وعلى الرغم من أن إجابات بوتات الدردشة كانت أفضل من إجابات البشر وسطياً، فإن أفضل نتائج البشر كانت أعلى من مثيلاتها لدى البوتات.

خصائص ينفرد بها البشر

لم تكن الدراسة تهدف إلى إثبات قدرة أنظمة الذكاء الاصطناعي على الحلول محل البشر في المهام الإبداعية؛ لكنها تثير تساؤلات فلسفية حول الخصائص التي يتفرد بها البشر وفقاً للأستاذ المساعد المختص بعلم النفس في جامعة بيرغن بالنرويج والمشارك في قيادة البحث، سيمون غراسيني.

ويقول: "لقد أثبتنا أن التكنولوجيا حققت خلال السنوات القليلة الماضية قفزة كبيرة فيما يتعلق بمحاكاة السلوك البشري، فهذه النماذج تتطور باستمرار".

يقول أحد كبار الباحثين المساعدين في معهد آلان تورينغ، ريان بورنيل الذي لم يشارك في الدراسة، إن إثبات قدرة الآلات على تحقيق أداء جيد في المهام المصممة لقياس القدرات الإبداعية عند البشر لا يثبت أنها قادرة على تقديم أي شيء يشبه فكرة مبتكرة.

فبوتات الدردشة التي خضعت للاختبار هي "صناديق سوداء"؛ ما يعني أننا لا نعرف بالضبط ماهية البيانات المستخدمة في تدريبها، أو كيف ولّدت إجاباتها، على حد تعبير بورنيل. ويضيف شارحاً: "من المرجح أن ما حدث هنا هو أن النموذج لم يكن يقدم أفكاراً جديدة مبتكرة؛ بل كان يعتمد على أشياء موجودة في بياناته التدريبية التي يمكن أن تتضمن هذه المهمة للاستخدامات البديلة بالضبط. وفي هذه الحالة، ليس هذا قياساً للقدرات الإبداعية؛ بل هو قياس لمستوى المعرفة السابقة للنموذج بهذا النوع من المهام".

لكن هذا لا يعني أن المقارنة بين البشر والآلات من حيث كيفية تعاملهما مع معضلات معينة ليست عملاً مفيداً وفقاً للباحثة في مرحلة الدكتوراة في معهد ماساتشوستس للتكنولوجيا (MIT)، آنا إيفانوفا التي تدرس النماذج اللغوية ولم تشارك في المشروع.

لكننا يجب ألا ننسى أن بوتات الدردشة، وعلى الرغم من أنها بارعة للغاية في تنفيذ طلبات محددة، يمكن أن تتعرض إلى تراجع ملحوظ في الأداء بتعديلات بسيطة وحسب؛ مثل تغيير صياغة الأوامر النصية وفقاً لإيفانوفا. تعتقد إيفانوفا أن هذه الدراسات يجب أن تدفعنا إلى التمعن في الصلة بين المهمة التي نطلب من نماذج الذكاء الاصطناعي تنفيذها، والقدرات الإدراكية التي نحاول قياسها. وتقول: "يجب ألا نفترض أن البشر والنماذج يحلون المعضلات والمشكلات بالطريقة نفسها".