لطالما كانت بوتات الدردشة، منذ ظهورها، تختلق الأشياء وتبتدع الأكاذيب. وتمثّل هذه "الهلوسات" جزءاً لا يتجزأ من آلية عمل نماذج الذكاء الاصطناعي. غير أنها تمثل، من ناحية أخرى، مشكلة كبيرة بالنسبة إلى الشركات التي قررت أن تدفع بنسبة كبيرة من جهودها واستثماراتها نحو تطوير الذكاء الاصطناعي، مثل شركة جوجل، لأنها تجعل الإجابات التي تولّدها هذه النماذج غير موثوقة.
داتا غيما: أداة من جوجل للتغلب على هلوسات نماذج الذكاء الاصطناعي
مؤخراً، أطلقت جوجل أداة لمعالجة هذه المشكلة. تحمل هذه الأداة اسم "داتا غيما" (DataGemma)، وتعتمد على طريقتين لمساعدة النماذج اللغوية الكبيرة على التحقق من صحة المعلومات الواردة في إجاباتها مقارنة ببيانات موثوقة، إضافة إلى الاستشهاد بمصادر هذه البيانات على نحو أكثر شفافية بالنسبة إلى المستخدمين.
اقرأ أيضاً: من أسباب هلوسة الذكاء الاصطناعي: الأشخاص المكلفون بتدريبه يعهدون بعملهم إليه
تحمل أولى الطريقتين اسم "التوليد المتوالف مع الاسترجاع" (Retrieval-Interleaved Generation)، أو "ريغ" (RIG) اختصاراً، وهي تتولى دوراً يشبه مدقق الحقائق. فإذا وجّه المستخدم إلى النموذج أمراً نصياً يتضمن سؤالاً مثل "هل ازداد مستوى استخدام مصادر الطاقة المتجددة على مستوى العالم؟" (Has the use of renewable energy sources increased in the world?) سيتوصل النموذج إلى إجابة بصيغة "مسودة أولية". عند ذلك، تحدد طريقة ريغ أجزاء مسودة الإجابة التي يمكن تدقيقها من خلال مقارنتها مع محتويات منصة داتا كومونز (Data Commons) التابعة لجوجل، وهي مخزن ضخم للبيانات والإحصاءات من مصادر موثوقة، مثل الأمم المتحدة أو المراكز الأميركية للسيطرة على الأمراض ومنعها. بعد ذلك، تجري طريقة ريغ عمليات التحقق، وتستعيض عن أي تخمينات أصلية خاطئة تضمنتها الإجابة بحقائق صحيحة. أيضاً، تستشهد طريقة ريغ بالمصادر التي اعتمدت عليها، وتعرض هذه المصادر للمستخدم.
أمّا الطريقة التالية، وهي طريقة شائعة الاستخدام في النماذج اللغوية الكبيرة، فهي تحمل اسم "التوليد المعزز بالاسترجاع" (Retrieval-Augmented Generation)، أو "راغ" (Rag) اختصاراً. لنأخذ مثالاً هذا الأمر النصي: "ما هو التقدم الذي أحرزته باكستان فيما يتعلق بالأهداف العالمية في مجال الصحة؟" (What progress has Pakistan made against global health goals?) لمعالجة السؤال، يبحث النموذج في داتا كومونز عن البيانات التي يمكن أن تساعده على تقديم الإجابة، مثل المعلومات المتعلقة بالقدرة على الوصول إلى المياه الصالحة للشرب، والتطعيمات ضد التهاب الكبد الفيروسي من النوع ب، وتقديرات متوسط العمر المتوقع. ومن خلال هذه الأرقام، يبني النموذج إجابته على أساس هذه البيانات، مع الاستشهاد بالمراجع.
تعزيز القدرات المنطقية للنماذج اللغوية
يقول مدير داتا كومونز في جوجل، بريم راماسوامي: "كان هدفنا هنا استخدام داتا كومونز لتعزيز القدرات المنطقية للنماذج اللغوية الكبيرة من خلال اتخاذ البيانات الإحصائية الواقعية من العالم الحقيقي أساساً لعملها، بحيث يمكن تتبعها إلى مصدرها الأصلي". ويضيف قائلاً إن اتباع هذا الأسلوب سيُتيح "بناء ذكاء اصطناعي أدق وأكثر موثوقية".
هذه الأداة متاحة فقط للباحثين حالياً، لكن راماسوامي يقول إنه من الممكن أن يتسع نطاق الوصول إليها بعد إجراء المزيد من الاختبارات. إذا عملت الأداة كما هو مأمول منها، فقد تمثل مكسباً حقيقية بالنسبة إلى خطة جوجل لدمج الذكاء الاصطناعي بصورة أعمق في محركها المخصص للبحث.
قيود الطريقة: مصدر البيانات نفسه
غير أن هذه الأداة لا تخلو من المحاذير. ففي البداية، ما زالت فائدة الطريقة مقيدة بوجود البيانات ذات الصلة في داتا كومونز، التي هي أقرب إلى مخزن بيانات منها إلى موسوعة شاملة. يمكنها أن تخبرك بالناتج المحلي الإجمالي لإيران، غير أنها لا تستطيع تأكيد تاريخ معركة الفلوجة الأولى أو تاريخ أحدث ألبوم أطلقته تايلور سويفت. في الواقع، فقد وجد باحثو جوجل أنه بالنسبة إلى نحو 75% من أسئلة الاختبار، لم تتمكن طريقة ريغ من الحصول على أي بيانات مفيدة من داتا كومونز. وحتى لو كانت البيانات المفيدة موجودة بالفعل في داتا كومونز، فإن النموذج لا يستطيع أن يصوغ الأسئلة الصحيحة اللازمة للعثور عليها على الدوام.
اقرأ أيضاً: 10 نصائح من سدايا لتحقيق أعظم استفادة من النماذج اللغوية الكبيرة
ثانياً، هناك مسألة الدقة. فعند اختبار طريقة راغ، وجد الباحثون أن النموذج قدّم إجابات صحيحة في نسبة تراوحت من 6% إلى 20% من الحالات. من ناحية أخرى، تمكنت طريقة ريغ من سحب الإحصاءات الصحيحة من داتا كومونز في 58% من الحالات فقط (على الرغم من أن هذا يمثل تحسّناً كبيراً بالمقارنة مع معدل الدقة للنماذج اللغوية الكبيرة من جوجل عندما لا تستعين بداتا كومونز، والذي يتراوح من 5% إلى 17%).
يقول راماسوامي إن دقة داتا غيما ستتحسن مع التدريب على كميات أكبر من البيانات. جرى تدريب الإصدار الأولي على 700 سؤال تقريباً فقط، كما أن الضبط الدقيق للنموذج تطلب إجراء فريقه لعملية تحقق يدوية لكل معلومة ولدها هذا الإصدار. ومن أجل تحسين النموذج، يخطط الفريق لتضخيم حجم مجموعة البيانات من مئات الأسئلة إلى الملايين.