في أواخر العام 2012، توصل علماء الذكاء الاصطناعي لأول مرة إلى طريقة تمكن الشبكات العصبونية من "الرؤية". وقد أثبتوا أن البرامج المصممة حتى تحاكي الدماغ البشري نوعاً ما يمكن أن تؤدي إلى تحسن كبير في أداء أنظمة الرؤية الحاسوبية الموجودة. ومنذ ذلك الحين، تعلم الباحثون في هذا الحقل كيفية جعل الشبكات العصبونية تحاكي طريقتنا في التفكير، والسماع، والكلام، والكتابة.
الذكاء الاصطناعي متعدد المهارات يتقدم في محاكاة البشر
ولكن، وعلى الرغم من أن الذكاء الاصطناعي أصبح أكثر فعالية بكثير في محاكاة البشر –بل والتفوق عليهم- في مهام محددة، فهو ما زال عاجزاً عن تقليد مرونة المخ البشري. فنحن قادرون على تعلم المهارات في سياق معين وتطبيقها في سياق آخر مختلف.
وعلى العكس من ذلك، وعلى الرغم من أن خوارزمية ألفاجو من ديب مايند تستطيع التغلب على أفضل أساتذة العالم في لعبة جو، إلا أنها لا تستطيع أن تستخدم هذه الاستراتيجيات في أي مكان خارج لوحة اللعب. أي أن خوارزميات التعلم العميق فائقة البراعة في التقاط الأنماط، ولكنها لا تستطيع استيعاب العالم المتقلب أو التكيف معه.
وضع الباحثون العديد من الفرضيات حول كيفية التغلب على هذه المشكلة، ولكن إحدى هذه الفرضيات اكتسبت زخماً خاصاً. حيث إن الأطفال يكتسبون معلوماتهم حول العالم بالإحساس به والتكلم عنه، وتبدو هذه التركيبة أساسية للتعلم، فما أن يبدأ الأطفال بتحقيق الاقتران بين الكلمات من جهة، والمناظر والأصوات وغيرها من المعلومات الحسية من جهة أخرى، حتى يصبحوا قادرين على توصيف ظواهر وعلاقات أكثر تعقيداً بالتدريج، والتفريق ما بين العلاقات السببية والعلاقات التي تقتصر على الترابط وحسب، وبناء نموذج معقد للعالم. وبعد ذلك، سيساعدهم هذا النموذج على التعامل مع البيئات غير المألوفة ووضع المعرفة والخبرات الجديدة في سياقها الصحيح.
من ناحية أخرى، فإن أنظمة الذكاء الاصطناعي مصممة للقيام بشيء واحد فقط. حيث أن خوارزميات الرؤية الحاسوبية والتعرف على الصوت تستطيع تحسس هذه الإشارات، ولكنها لا تستطيع استخدام اللغة لتوصيفها.
كما أن نموذج اللغة الطبيعية يستطيع التلاعب بالكلمات، ولكن هذه الكلمات مستقلة تماماً عن أي واقع حسي. فإذا جُمعت القدرات الحسية مع اللغوية لإعطاء الذكاء الاصطناعي طريقة أقرب إلى الطريقة البشرية في جمع ومعالجة المعلومات الجديدة، فهل يستطيع أخيراً تطوير نموذج قادر بشكل ما على فهم العالم المحيط به؟
اقرأ أيضاً: الشبكات العصبونية الاصطناعية تُعلّم نفسها شم الرائحة كخلايا الدماغ تماماً
ماذا يُنتَظر من أنظمة الذكاء الاصطناعي متعدد المهارات؟
يأمل الباحثون بأن هذه الأنظمة "متعددة الأنماط"، والتي تستطيع محاكاة "الأنماط" الحسية واللغوية للذكاء البشري في نفس الوقت، ستؤدي إلى ظهور نوع أكثر تطوراً من الذكاء الاصطناعي الأقدر على التكيف مع أوضاع ومشاكل جديدة. ويمكن لخوارزميات كهذه أن تساعدنا على التعامل مع مشاكل أكثر تعقيداً، كما يمكن نقلها إلى روبوتات تستطيع التواصل والتعاون معنا في الحياة اليومية.
لقد أدت التطورات الجديدة في خوارزميات معالجة اللغة، مثل جي بي تي 3 من أوبن إيه آي، إلى المساعدة على التحرك بهذا الاتجاه. فقد تمكن الباحثون من استيعاب كيفية محاكاة التلاعب باللغة بدرجة كافية للحصول على نتائج مفيدة لدى جمعها مع القدرات الحسية.
بدأ الباحثون باستخدام أول قدرة حسية تمكن هذا الحقل من تطويرها، وهي الرؤية الحاسوبية. وقد حصلوا على نتائج أولية بسيطة على شكل نماذج ثنائية النمط، أو ذكاء اصطناعي مرئي لغوي.
في السنة الماضية، ظهرت عدة نتائج رائعة في هذا المجال. ففي سبتمبر، قام باحثون في معهد آلين للذكاء الاصطناعي (إيه آي 2) ببناء نموذج يستطيع توليد صورة من جملة وصفية، وذلك في استعراض لقدرة الخوارزمية على الربط ما بين الكلمات والمعلومات المرئية. وفي نوفمبر، قام باحثون في جامعة نورث كارولينا تشابيل هيل بتطوير طريقة تقوم بدمج الصور في النماذج اللغوية الموجودة حالياً، وهو ما يؤدي إلى تعزيز قدرة النماذج على استيعاب ما تقرؤه.
بعد ذلك، استخدم أوبن إيه آي هذه الأفكار لتطوير جي بي تي 3. وفي بداية 2021، قام المختبر بنشر نموذجين مرئيين لغويين، يقوم أحدهما بربط عناصر الصورة مع الكلمات التي تصفها في جملة وصفية.
أما الآخر فيقوم بتوليد صور بناء على تركيبة من المفاهيم التي تعلمها. ويمكنك أن تطلب من هذا النموذج، على سبيل المثال، توليد "لوحة لحيوان كابيبارا يجلس في حقل عند الشروق". وعلى الرغم من أن هذه الصورة قد تكون غير مألوفة للنظام، فسوف يتمكن من مزج ومطابقة ما يعرفه عن اللوحات، وحيوانات الكابيبارا، والحقول، وشروق الشمس، حتى يركب مجموعة من الأمثلة.
اقرأ أيضاً: هل يمكن لتحفيز الدماغ أن يعالج الآلام المزمنة؟
آفاق واعدة لأنظمة الذكاء الاصطناعي متعددة الأنماط
إضافة إلى ذلك، فإن الأنظمة متعددة الأنماط الأكثر تعقيداً قد تسمح ببناء مساعدين روبوتيين أكثر تطوراً، بشكل أقرب إلى رئيس خدم آلي منه إلى المساعد الصوتي أليكسا. حيث أن الجيل الحالي من الروبوتات التي تعمل بالذكاء الاصطناعي يعتمد بشكل أساسي على البيانات المرئية للتعامل مع البيئة المحيطة والتفاعل معها.
قد تصبح الأنظمة المتعددة الأنماط أولى أنظمة الذكاء الاصطناعي التي نستطيع فعلاً أن نثق بها لحماية حياتنا.
وهو أمر كافٍ لتنفيذ المهام البسيطة في بيئات مقيدة، مثل إعداد طلب في مستودع. ولكن المختبرات مثل إيه آي 2 تعمل على إضافة اللغة والمزيد من المدخلات الحسية، مثل البيانات الصوتية واللمسية، بحيث تستطيع الآلات استيعاب الأوامر وتأدية عمليات أكثر تعقيداً، مثل فتح الباب عندما يقرعه شخص ما.
على المدى الطويل، قد تساعد الإنجازات في مجال الأنظمة متعددة الأنماط على التغلب على بعض من أكبر نقاط ضعف الذكاء الاصطناعي. ويقول الخبراء، على سبيل المثال، إن عجز هذه الأنظمة عن فهم العالم هو سبب فشلها وسهولة خداعها، حيث يمكن تغيير صورة ما بشكل غير ملحوظ بالنسبة للبشر، ولكنه يؤدي إلى ارتباك الذكاء الاصطناعي في التعرف على محتواها.
لن يؤدي تحقيق ذكاء اصطناعي أكثر مرونة إلى تطبيقات جديدة وحسب، بل سيجعلها أكثر أماناً أيضاً. فلن تقوم الخوارزميات التي تتفحص السير الذاتية بمعاملة الصفات التي لا تتعلق بطبيعة العمل، مثل الجنس والعرق، على أنها مؤشرات قد تدل على الضعف.
ولن تضيع السيارات ذاتية القيادة طريقها في البيئات غير المألوفة وتصطدم بعائق ما في الظلام أو الثلج. وقد تصبح الأنظمة المتعددة الأنماط أولى أنظمة الذكاء الاصطناعي التي نستطيع فعلاً أن نثق بها لحماية حياتنا.