بوت دردشة جديد من ديب مايند يعتمد على عمليات بحث جوجل وعلى البشر لتقديم إجابات أفضل

إذا أردنا وضع تصميم ممتاز لبوت دردشة يعتمد على الذكاء الاصطناعي، فقد تكمن الحيلة في ضبط سلوكه وفقاً لتعليمات البشر، ودفعه إلى دعم ادعاءاته باستخدام الإنترنت، وذلك وفقاً لورقة بحثية جديدة من مختبر الذكاء الاصطناعي ديب مايند (DeepMind) الذي تمتلكه شركة ألفابت (Alphabet).

سبارو: بوت الدردشة الجديد

ففي بحث غير محكّم نشره فريق المختبر حديثاً، تم الكشف عن بوت الدردشة سبارو (Sparrow) الذي تم تدريبه على النموذج اللغوي الكبير تشينتشيلا (Chinchilla) من ديب مايند.

وقد تم تصميم سبارو حتى يتحدث مع البشر ويجيب عن الأسئلة، وذلك باستخدام عمليات بحث مباشرة على جوجل (Google) أو المعلومات الموجودة لديه. وبناءً على تقييم المستخدمين لهذه الأجوبة من حيث فائدتها، يتم تدريبه باستخدام خوارزمية تعلم معزز، والتي تعتمد على التجربة والخطأ لتحقيق هدف معين. ويهدف هذا النظام إلى أن يمثل خطوة نحو الأمام في عملية تطوير أنظمة الذكاء الاصطناعي التي تستطيع أن تتحدث مع البشر دون عواقب وخيمة، مثل تشجيع الناس على إيذاء أنفسهم أو الآخرين.

تقوم النماذج اللغوية الكبيرة بتوليد نصوص تبدو كأنها من تأليف البشر. وقد أصبحت جزءاً متزايد الأهمية من البنية التحتية للإنترنت، حيث تستخدم لتلخيص النصوص، وبناء أدوات أكثر فاعلية للبحث على الإنترنت، كما تستخدم كبوتات دردشة لخدمة العملاء.

اقرأ أيضاً: هل تمثل النماذج اللغوية مثل جي بي تي 3 بداية نوع جديد من محركات البحث؟

ولكن تدريبها يعتمد على تجميع كميات هائلة من البيانات والنصوص من الإنترنت، والتي تعكس لا محالة الكثير من التحيزات المؤذية. ولا يتطلب الأمر سوى بضع تجارب وتعديلات حتى تبدأ هذه النماذج بتوليد المحتوى المسيء والتمييزي. وبالنسبة لنظام ذكاء اصطناعي مبني لإجراء حوارات مع البشر، يمكن أن تكون النتائج مدمرة في هذه الحال. فإذا لم يكن نظام الذكاء الاصطناعي المخصص للحوار مزوداً بإجراءات السلامة المناسبة، فقد يقول أشياء مسيئة حول الأقليات العرقية، أو يقترح على المستخدمين شرب مبيض الغسيل، على سبيل المثال.

وقد حاولت شركات الذكاء الاصطناعي التي تأمل بتوليد أنظمة ذكاء اصطناعي للحوار بعدة أساليب لجعل نماذجها أكثر أماناً.

وعلى سبيل المثال، فقد استخدمت أوبن أيه آي التي صممت النموذج اللغوي الشهير "جي بي تي 3" (GPT-3)، وشركة الذكاء الاصطناعي الناشئة أنثروبيك (Anthropic)، باستخدام التعلم المعزز لإدماج المعايير البشرية في نماذجها. كما أن بوت الدردشة بليندربوت (BlenderBot) الذي يعتمد على الذكاء الاصطناعي من فيسبوك (Facebook) يستخدم البحث على الإنترنت لدعم إجاباته.

أما سبارو من ديب مايند فيجمع كل هذه الأساليب في نموذج واحد.

تحسين نموذج سبارو

فقد قام مختبر ديب مايند بتقديم عدة إجابات قام النموذج بتوليدها لنفس السؤال إلى مجموعة من المشتركين البشر، وطلب منهم تحديد الإجابة الأفضل. ومن ثم طلب منهم أيضاً تحديد وجهة نظرهم من حيث صحة الإجابات، وما إذا كان سبارو قد دعم الإجابة بالأدلة المناسبة، مثل الروابط التي تشير إلى المصادر. وقد تمكن النموذج من تقديم إجابات منطقية عن أسئلة واقعية، وذلك باستخدام أدلة تم جلبها من الإنترنت، بنسبة 78%.

وعند صياغة هذه الإجابات، اتبع 23 قاعدة حددها الباحثون، مثل عدم تقديم نصائح مالية، أو إطلاق التهديدات، أو الادعاء بأنه شخص.

ويكمن الفرق بين هذه المقاربة وسابقاتها في أن ديب مايند يأمل في استخدام "الحوار على المدى الطويل من أجل السلامة"، كما يقول باحث السلامة في ديب مايند جيفري إرفينغ.

"وهذا يعني أننا لا نتوقع أن المشكلات التي نواجهها في هذه النماذج، مثل المعلومات المزيفة أو التنميط أو غيرها، أن تكون واضحة منذ الوهلة الأولى، وأننا نريد معالجتها بالتفصيل. وهذا يعني التنسيق بين الآلات والبشر أيضاً"، كما يقول.

ليست فكرة ديب مايند في استخدام المعايير البشرية لتحسين تعلم نموذج الذكاء الاصطناعي بالفكرة الجديدة، كما تقول سارة هوكر التي تقود المختبر اللاربحي لأبحاث الذكاء الاصطناعي كوهير فور أيه آي (Cohere for AI).

تقول هوكر: "ولكن هذه التحسينات مقنعة وتبين بوضوح فوائد التحسين الذي يعتمد على التوجيه البشري للبرمجيات الحوارية في إطار النماذج اللغوية الكبيرة".

ويقول الباحث في شركة الذكاء الاصطناعي الناشئة هاغينغ فيس (Hugging Face)، داوي كيلا، إن سبارو "خطوة جديدة حسنة تتبع التوجه العام في الذكاء الاصطناعي، والذي يقوم على محاولات جدية لتحسين جوانب الأمان في استخدام النماذج اللغوية الكبيرة". ولكن ما زال أمامنا طريق طويل قبل أن يصبح من الممكن استخدام هذه النماذج الحوارية التي تعتمد على الذكاء الاصطناعي بشكل عملي.

فما زال سبارو يرتكب الأخطاء. حيث إنه يبتعد عن الموضوع أو يطلق إجابات عشوائية في بعض الحالات. كما تمكن بعض المشاركين المثابرين من دفع النموذج إلى انتهاك القواعد المفروضة عليه بنسبة 8%. (ولكن هذا لا يزال أفضل من أداء النماذج الأقدم: فقد كانت النماذج الأقدم في ديب مايند تنتهك القواعد أكثر من سبارو بثلاثة أضعاف).

تقول هوكر: "بالنسبة للمجالات التي يكون فيها الضرر البشري مرتفعاً في إجابات البرنامج، مثل تقديم النصائح الطبية أو المالية، قد تبدو نسبة الفشل هذه كبيرة بدرجة غير مقبولة للكثيرين". إضافة إلى ذلك، فإن العمل يتركز على نموذج يعتمد على اللغة الإنجليزية، "في حين أننا نعيش في عالم يجب أن تقدم التكنولوجيا خدماتها فيه بشكل آمن ومسؤول بجميع اللغات المختلفة"، كما تضيف هوكر.

ويشير كيلا إلى مشكلة أخرى: "إن الاعتماد على جوجل للبحث عن المعلومات قد يؤدي إلى تحيزات غير معروفة ويصعب كشفها، بما أن كل شيء مغلق المصدر".