تمثل البيانات الوقود الذي يحرِّك عجلة تطوير الذكاء الاصطناعي، وبفضلها حصلنا على الكثير من المزايا التي أصبحنا نعتبرها من البديهيات، مثل الملاحظات على يوتيوب، واقتراحات سبوتيفاي للموسيقى، وتلك الإعلانات المريعة التي تلاحقك على الإنترنت أينما ذهبت.
ولكن عند الحاجة إلى جمع هذه البيانات المفيدة، يضطر خبراء الذكاء الاصطناعي إلى استخدام كل ما لديهم من قدرات ابتكارية. ولنأخذ مثالاً ما عن هذا الموضوع، مثل معالجة اللغة الطبيعية NLP، وهي حقل فرعي من الذكاء الاصطناعي يركز على تعليم الحواسيب كيفية فهم اللغة البشرية. ففي المؤتمر السنوي حول الأساليب التجريبية في معالجة اللغة الطبيعية، قدم الخبراء مجموعة متنوعة من الأبحاث التي اعتمدت على معلومات تم جمعها بأساليب غريبة ومبتكرة، وقد لخصنا فيما يلي أربعة من مشاريعنا المفضلة.
الإسبانجليزية
من بين الأبحاث التي أُجريت حول معالجة اللغة الطبيعية متعددة اللغات، قدمت مايكروسوفت بحثاً يركز على معالجة "اللغة مختلطة الترميز"، أي النص أو الكلام الذي ينتقل بشكل انسيابي بين لغتين. وبما أن أكثر من نصف سكان العالم يتكلمون أكثر من لغة واحدة، فإن هذا المجال الذي يحتاج إلى مزيد من الدراسة يعتبر هاماً.
وقد بدأ الباحثون بالإسبانجليزية (الإسبانية والإنجليزية)، ولكنهم لم يعثروا في البداية على ما يكفي من النصوص الإسبانجليزية لتدريب الآلة. وعلى الرغم من أن تعدد اللغات أثناء الكلام أمر شائع، فإنه لا يتواجد على شكل نصوص إلا فيما ندر. وللتغلب على هذه المشكلة، قام الباحثون بكتابة برنامج يدخل نصاً باللغة الإنكليزية ضمن مترجم بينج من مايكروسوفت، ومن ثم يدخل بعض العبارات من الترجمة الإسبانية الناتجة ضمن النص الإنجليزي الأصلي، كما حرص البرنامج على أن الكلمات والعبارات المستبدلة كانت تحمل نفس المعنى. وبهذه الطريقة، تمكن الباحثون من الحصول على الكمية التي يريدونها من النصوص بالإسبانجليزية.
وقد تمكن النموذج الناتج من التفوق في الأداء على النماذج السابقة التي تم تدريبها بالإسبانية والإنجليزية بشكل منفصل، ويأمل الباحثون أن هذا العمل سيؤدي في نهاية المطاف إلى تطوير بوتات دردشة متعدد اللغات قادرة على التنقل بين اللغات المختلفة بشكل انسيابي.
كتب الطبخ
لا شك في أهمية وصفات الطبخ لصنع الطعام، ولكن يبدو أنها قادرة على تغذية الآلات أيضاً؛ حيث إنها تتبع نفس النمط المؤلف من خطوات متتابعة، كما أنها غالباً ما تتضمن بعض الصور المتعلقة بالنص، وبالتالي تعتبر مصدراً ممتازاً للبيانات المهيكلة لتعليم الآلات كيفية فهم النص والصور بنفس الوقت. ولهذا قام الباحثون في جامعة هاسيتيب التركية ببناء مجموعة بيانات عملاقة من حوالي 20,000 وصفة طبخ مع صورها، ويأملون أنها ستكون مصدراً جديداً لقياس أداء النماذج التي تعمل على فهم النص والصور معاً.
يطلق الباحثون على نموذجهم اسم: ريسيبي كيو إيه، وهو يعتمد على أبحاث سابقة كانت تركز على الفهم الآلي للقراءة والمرئيات بشكل منفصل. فقد كانت الآلة من قبل تحاول فهم السؤال ومقطع مرفق به للبحث عن إجابة، أما الآن فيجب أن تبحث عن الإجابة في الصورة المرفقة. وإن وجود الصور والنصوص جنباً إلى جنب يزيد من تعقيد المهمة؛ لأنها قد تتشارك في بعض المعلومات المكملة لبعضها أو الزائدة.
جمل أقل طولاً
ترغب جوجل في الاستعانة بالذكاء الاصطناعي لتحسين أسلوبك في الكتابة، ولهذا قام باحثوها ببناء أضخم مجموعة بيانات على الإطلاق لتقسيم الجمل الطويلة إلى جمل أقصر بنفس المعنى. وأين يمكن العثور على كميات هائلة من بيانات تحرير النصوص؟ في ويكيبيديا طبعاً.
فقام الباحثون بدراسة التاريخ الغني لتحرير النصوص والمواد في ويكيبيديا، وذلك لاستخلاص الحالات التي يتم فيها تقسيم الجمل الطويلة. وكانت النتيجة 60 ضعفاً من الأمثلة الواضحة حول تقسيم الجمل، و90 ضعفاً من المفردات، مقارنة بالبيانات التي كانت مخصصة لقياس فعالية هذا العمل. كما أن البيانات كانت بعدة لغات.
وعندما قام الباحثون بتدريب نموذج التعلم الآلي باستخدام البيانات الجديدة، حقق النموذج دقة 91%، وهي النسبة التي تعبر عن الجمل التي حافظت على معناها وسلامتها اللغوية بعد إعادة صياغتها، ومن الجدير بالذكر أن النموذج المدرَّب باستخدام البيانات السابقة قد حقَّق دقة لا تتجاوز 32%. وعندما جمع الباحثون كلتا المجموعتين ودرَّبوا نموذجاً آخر، وصلت دقته إلى 95%. وقد استنتج الباحثون أن التحسينات المستقبلية يمكن تحقيقها بالعثور على المزيد من مصادر البيانات.
تحيُّز وسائل التواصل الاجتماعي
أظهرت الدراسات أن اللغة التي نولِّدها قد تكون مقياساً جيداً لتوقع العرق، والجنس، والعمر، حتى لو لم نعبر عن هذه المعلومات بشكل صريح. ولهذا جرب الباحثون في معهد آلين للذكاء الاصطناعي بالاشتراك مع باحثين في إحدى جامعات الشرق الأوسط استخدام الذكاء الاصطناعي لإزالة التحيز من النص وذلك بحذف تلك المؤشرات الخفية. وقد لجأ الباحثون إلى تويتر من أجل الحصول على المزيد من البيانات التي يمكن أن تمثل أنماط اللغات لدى شرائح ديموغرافية مختلفة، فقاموا بجمع تغريدات من مستخدمين يتوزعون بشكل متساوٍ بين ذوي البشرة البيضاء والسمراء من غير الإسبانيين، وبين الرجال والنساء، وبين اليافعين من 18 إلى 34 سنة والكبار فوق 35 سنة.
واعتمد الباحثون بعد ذلك على المقاربة التنافسية بين شبكتين عصبونيتين، لمعرفة ما إذا كانتا قادرتين على إزالة المؤشرات الديموغرافية ضمن التغريدات بشكل آلي. كانت إحدى الشبكتين تحاول توقع صفات صاحب التغريدة، في حين كانت الأخرى تحاول تغييرها حتى تصبح حيادية بالكامل، وذلك بهدف تخفيض دقة التوقع للنموذج الأول إلى 50% (أي ما يكافئ التوقع بالصدفة). وقد نجحت هذه الطريقة في التخفيف من المؤشرات الدالة على العرق والجنس والعمر بشكل كبير، ولكن ليس بالكامل.