إذا تمكنت من التعرف على كلب بالنظر، فمن المرجح أنك قادر على التعرف على كلب عند وصفه لك بالكلمات. ولكن هذا لا ينطبق على أنظمة الذكاء الاصطناعي الحالية. فقد أصبحت الشبكات العصبونية العميقة فائقة البراعة في التعرف على الأجسام في الصور وإجراء الحوارات باللغة الطبيعية، ولكن ليس في نفس الوقت، فأنظمة الذكاء الاصطناعي قادرة على التفوق في أداء مهمة ما أو مهمة أخرى، ولكن ليس الاثنتين معاً في نفس الوقت.
وتُعزى هذه المشكلة، جزئياً، إلى أن هذه النماذج تتعلم مهارات مختلفة باستخدام طرق مختلفة، وهو ما يمثل عائقاً كبيراً أمام تطوير أنظمة ذكاء اصطناعي أقرب إلى أنظمة الذكاء الاصطناعي العام، وهي آلات قادرة على القيام بمهام متعددة، وقادرة على التكيف أيضاً. كما يعني أن التطورات التي حُققت في التعلم العميق لمهارة ما غير قابلة للنقل إلى مهارات أخرى.
خوارزمية "داتا تو فيك" (Data2vec)
ويرغب فريق في "ميتا إيه آي" (المعروف سابقاً بقسم فيسبوك للأبحاث) بتغيير هذا الأمر، فقد قام الباحثون بتطوير خوارزمية واحدة يمكن استخدامها لتدريب شبكة عصبونية على التعرف على الصور والنصوص والكلام. تحمل الخوارزمية اسم "داتا تو فيك" (Data2vec)، ولا تقتصر فقط على توحيد عملية التعلم، بل تحقق أداء يضاهي على الأقل أداء التقنيات الحالية المستخدمة للمهام الثلاثة جميعاً. يقول مايكل أولي، وهو باحث في ميتا إيه آي: "نأمل بأن هذه الخوارزمية ستغير من طريقة تفكير الناس حول القيام بهذا النوع من العمل".
اعتمد الباحثون على مقاربة معروفة باسم التعلم ذاتي الإشراف، حيث تتعلم الشبكات العصبونية التقاط الأنماط في مجموعات البيانات بنفسها، دون إرشادها باستخدام أمثلة مصنفة. وهي الطريقة التي تعتمد عليها النماذج اللغوية الضخمة، مثل جي بي تي 3، للتعلم من الكتل النصية الضخمة التي جُمعت من الإنترنت، كما أنها العامل الأساسي في العديد من الإنجازات الحديثة في مجال التعلم العميق.
كان أولي وزملاؤه في ميتا إيه آي يعملون على التعلم ذاتي الإشراف للتعرف على الكلام. ولكن، وعندما درسوا ما كان يقوم به باحثون آخرون في مجال التعلم ذاتي الإشراف للصور والنصوص، أدركوا أنهم كانوا يستخدمون طرقاً مختلفة في محاولة لتحقيق نفس الهدف.
اقرأ أيضاً: أذرع روبوتية افتراضية تزداد ذكاءً بتدريب بعضها البعض
نموذج طالب وأستاذ
تعتمد طريقة داتا تو فيك على شبكتين عصبونيتين، طالب وأستاذ. أولاً، يتم تدريب شبكة الأستاذ على الصور أو النصوص أو الكلام بالطريقة المعتادة، أي تعلم تمثيل داخلي لهذه البيانات بشكل يسمح لها بتوقع ما تراه عند تفحص أمثلة جديدة. فعندما ترى صورة كلب، ستتعرف على وجود الكلب فيها.
أما الحيلة فتكمن في تدريب شبكة الطالب على توقع التمثيل الداخلي للأستاذ. وهذا يعني أنها لا تُدرب على تخمين محتوى الصورة عند رؤيتها، بل تخمين ما يراه الأستاذ لدى رؤيتها.
ونظراً لكون الطالب يحاول تعلم طريقة الأستاذ في تمثيل الصورة أو الجملة، لا تعلم تخمين الصورة أو الجملة الفعليتين، فإن الخوارزمية لا تحتاج إلى أن تُصمم وفق نمط معين من الدخل.
أقرأ أيضاً: الحاجة إلى ذكاء اصطناعي متمحور حول الإنسان
جزء من توجه كبير في بناء نماذج ذكاء اصطناعي تفهم العالم بطرق متعددة
تمثل داتا تو فيك جزءاً من توجه كبير في الذكاء الاصطناعي نحو بناء نماذج تستطيع تعلم كيفية فهم العالم بأكثر من طريقة واحدة. يقول أني كيمبافي في معهد ألين للذكاء الاصطناعي في سياتل، والذي يعمل على الرؤية واللغة: "إنها فكرة ذكية، وتمثل تطوراً واعداً فيما يتعلق بانتقال الأنظمة إلى طرق التعلم العامة".
من الجدير بالذكر أنه يمكن استخدام نفس خوارزمية التعلم لمهارات مختلفة، ولكنها لا تستطيع أن تتعلم في المرة الواحدة سوى مهارة واحدة. فما أن تتعلم كيفية التعرف على الصور، يجب أن تبدأ من الصفر لتعلم التعرف على الكلام. إن منح الذكاء الاصطناعي عدة مهارات في نفس الوقت أمر صعب، ولكنه شيء يرغب فريق ميتا إيه آي بالعمل عليه تالياً.
تفاجأ الباحثون عندما اكتشفوا أن طريقتهم تفوقت في أدائها، في الواقع، على التقنيات الموجودة من قبل للتعرف على الصور والكلام، كما أنها تضاهي أفضل النماذج اللغوية في فهم النصوص.
ويبدو أن مارك زوكربيرغ بدأ منذ الآن بالتفكير في عدة تطبيقات محتملة لهذه الطريقة في الميتافيرس، فقد نشر على فيسبوك مؤخراً قائلاً: "ستوضع خلاصة كل هذه الأعمال في نهاية المطاف ضمن نظارة واقع معزز مع مساعد يعمل بالذكاء الاصطناعي، ويمكن أن تساعدك على طهي العشاء، وتلاحظ إذا نسيت وضع أحد المقادير، وتنبهك إلى ضرورة تخفيف حرارة الموقد، أو تقوم بمهام أكثر صعوبة".
بالنسبة لأولي، فإن النتيجة الأهم تتلخص بضرورة خروج الباحثين من مجالاتهم المعزولة عن بعضها بعضاً. ويقول: "لا داعٍ للتركيز بشكل كامل على شيء واحد، فإذا كانت لديك فكرة جيدة، فقد تكون مفيدة للجميع في مجالات أخرى".