وكلاء الذكاء الاصطناعي في بيئة عمل رقمية: أين ينجحون وأين يفشلون؟

3 دقيقة
حقوق الصورة: إم آي تي تكنولوجي ريفيو العربية. تصميم: مهدي أفشكو.

تجلس أمام كمبيوترك لاجتماعك الصباحي، ليس مع زملائك أو مديرك، بل مع وكلاء الذكاء الاصطناعي، الموظفين لديك، الذين طوّرتهم وكلفتهم بمهامهم بالاعتماد على النماذج اللغوية الكبيرة (LLMs). تدخل بضعة أوامر: أنت اطلع على رسائلي الإلكترونية كلّها التي تلقيتها صباحاً، وحضِّر رداً على كل منها، أطلعني على الرد قبل إرساله. وأنت، أرسل تذكيراً لكل من أرسلت إليه بريداً يوم أمس اطلب فيه شيئاً ما ولم أتلقَّ رداً. أمّا أنت، فاطلع على جدول أعمالي لليوم وجهِّز مسودات لمحاضر الاجتماعات المجدولة جميعها، أضِف إليها كلَّ ما تمت مناقشته عبر البريد الإلكتروني ورسائل الواتساب خلال آخر شهر مع الأطراف المعنية في كل اجتماع. وأخيراً أنت، احضر اجتماع الساعة الثالثة نيابة عني وأرسل لي أهم النقاط التي وردت فيه.

كم سيوفّر عليك هؤلاء من الوقت يومياً بأداء هذه المهام الروتينية؟ السؤال المهم، هل وصل الذكاء الاصطناعي حقاً إلى مستوى من التطور يمكّنه من أداء هذه المهام دون أخطاء أو التسبب بكارثة؟ وفي هذه الحالة، ما هي حدود أتمتة المهام اليومية؟ بل السؤال الأهم، ماذا ستعني تلك القدرة بالنسبة لمستقبل الوظائف؟

في محاولة للإجابة عن هذه التساؤلات، أجرى باحثون من جامعتي كارنيجي ميلون (Carnegie Mellon University)، وديوك (Duke University)، دراسة بعنوان "تقييم أداء وكلاء النماذج اللغوية الكبيرة (LLM) في المهام الواقعية المهمة". يقدّم الباحثون في دراستهم، التي لم تخضع لمراجعة الأقران بعد ونُشرت على أركايف في ديسمبر/كانون الأول عام 2024، معيار "TheAgentCompany"، وهو معيار مرن لتقييم وكلاء الذكاء الاصطناعي الذين يتفاعلون مع العالم بطرق مشابهة لطرق العامل البشري، مثل تصفح الويب، وكتابة التعليمات البرمجية، وتشغيل البرامج، والتواصل مع الزملاء الآخرين.

اقرأ أيضاً: كيف يسرّع تشات جي بي تي تطور وكلاء الذكاء الاصطناعي وانتشارها؟

تجربة عملية في بيئة عمل رقمية

بَنَى الباحثون بيئة متكاملة تحتوي على مواقع ويب وبيانات داخلية تحاكي بيئة شركة برمجيات صغيرة بهدف تقييم قدرة وكلاء الذكاء الاصطناعي على أداء المهام التي يواجهونها في بيئات العمل اليومية. يجب على الوكلاء تنفيذ مهام تتعلق بهندسة البرمجيات وإدارة المشاريع والتحليل المالي، وغيرها من المهام النموذجية التي عادةً ما تُنفَّذ من قِبل أدوار وظيفية متعددة في شركة متخصصة في هندسة البرمجيات.

يجب على الوكلاء تصفح الويب، وكتابة الأكواد البرمجية، والتفاعل مع زملاء عمل افتراضيين لتحقيق النجاح في مهامهم. تستند بيئة TheAgentCompany بالكامل إلى برمجيات مفتوحة المصدر، كما أنشأ الباحثون أدوات تقييم دقيقة تُتيح منح نقاط جزئية عند إتمام الوكيل لأجزاء من المهام بنجاح. أجرى الفريق التجارب باستخدام عدة نماذج لغوية كبيرة مثل كلود من أنثروبيك، وجي بي تي- 4 أو من أوبن إيه آي وجيميناي من جوجل ولاما من ميتا وكوين من علي بابا.

تضم هذه البيئة الافتراضية:

  • مساحة العمل المحلية (Local Workspace): بيئة تشغيل محلية تعمل على جهاز الوكيل، مشابهة لجهاز الكمبيوتر المحمول لموظف بشري. وتتضمن أدوات مثل: متصفح ويب، ومحرر أكواد، وواجهة طرفية لنظام لينوكس.
  • الشبكة الداخلية (Intranet): تحاكي مواقع الويب الداخلية للشركة، التي تستضيف الشيفرات البرمجية، والوثائق، وأدوات إدارة المشاريع والتواصل.
  • الأدوات الرئيسية داخل الشبكة الداخلية: وتضم:
  1. GitLab: بديل مفتوح المصدر لاستضافة الشفرات البرمجية، مشابه لجيت هاب (GitHub)
  2. OwnCloud: بديل مفتوح المصدر لتخزين المستندات وتحريرها بشكلٍ تعاوني، مشابه لجوجل درايف (Google Drive).
  3. Plane: أداة مفتوحة المصدر لإدارة المهام وتتبع مشروعات العمل، مشابه لجيرا (Jira).
  4. RocketChat: أداة للتواصل الفوري داخل الشركة، بديل مفتوح المصدر لأداة سلاك (Slack).

فيديو توضيحي لكيفية تفاعل وكلاء الذكاء الاصطناعي مع الخدمات المختلفة في البيئة الافتراضية

اقرأ أيضاً: هل وكلاء الذكاء الاصطناعي مفيدون حقاً؟ شركات التكنولوجيا تسعى لإقناعنا بذلك

نتائج الدراسة

أين يتفوق الذكاء الاصطناعي؟

  • أظهرت النتائج أن وكلاء الذكاء الاصطناعي يتفوقون بشكلٍ واضح في المهام الفنية والبرمجية التي تتطلب إجراءات تقنية دقيقة وخطوات واضحة.
  • نجح وكلاء الذكاء الاصطناعي لأحد النماذج (كلود) في تنفيذ 24% من المهام بنجاح كامل، مع الحصول على درجات جزئية في العديد من المهام الأخرى.

أين يخفق الذكاء الاصطناعي؟

  • عندما يتعلق الأمر بمهام تتطلب المنطق السليم أو المهارات الاجتماعية، فشلت النماذج في أداء هذه المهام بشكلٍ فعّال.
  • عند التعامل مع مواقع إلكترونية معقدة تحتوي على واجهات مستخدم مليئة بالنوافذ المنبثقة أو العمليات متعددة الخطوات، ظهر ضعف أداء الذكاء الاصطناعي بوضوح.
  • أحياناً، عندما يصطدم النظام بعائق لا يعرف كيفية تجاوزه، يلجأ إلى اختلاق حلول عبثية وغير منطقية. أحد الأمثلة الطريفة كان عندما حاول وكيل الذكاء الاصطناعي حل مشكلة تواصل عن طريق تغيير اسم زميله داخل التطبيق، بدلاً من البحث عن الشخص الصحيح.

هل الذكاء الاصطناعي جاهز لتولي مهام الموظفين البشر؟

تثبت هذه الدراسة أن الذكاء الاصطناعي، رغم تقدمه الكبير، ليس جاهزاً بعد ليحل محل الإنسان في بيئات العمل المعقدة.  لكن إذا كان وكيل ذكاء اصطناعي يستطيع الآن إنجاز ما يقارب ربع المهام في شركة برمجية بكفاءة، ومع وتيرة التطور السريعة في هذه الأنظمة، لك أن تتوقع تضاعف هذه الكفاءة خلال سنوات قليلة. من الواضح أن تأثير الذكاء الاصطناعي في سوق العمل أمر حتمي؛ فقد تتغير الأدوار الوظيفية، حيث يصبح البشر مشرفين على وكلاء الذكاء الاصطناعي بدلاً من القيام بالمهام بأنفسهم، وربما سنحتاج إلى تعريف جديد لمفاهيم مثل الكفاءة والإنتاجية والعمل المكتبي في حد ذاته. سنحتاج أيضاً إلى التفكير في المهارات التي يجب أن يتقنها الموظفون؛ هل المهارة التقنية ستبقى مهمة في سوق العمل أمْ يجب التركيز على مهارات الإشراف والتوجيه والتواصل والتفكير النقدي وتحليل مخرجات الذكاء الاصطناعي؟ السؤال هنا ليس ما إذا كان الذكاء الاصطناعي سيُغيّر وظائفنا، بل كيف سنتكيف نحن مع هذا التغيير القادم لا محالة؟

المحتوى محمي