الشبكات العصبونية عاجزة عن استيعاب مفهوم الخداع البصري

3 دقائق
مصدر الصورة: بيكساباي

تعتبر الرؤية البشرية أداة مذهلة، وعلى الرغم من أنها تطورت في بيئات محددة على مدى ملايين السنوات، إلا أنها قادرة على أداء مهام لم تَخُضها أنظمة الرؤية في الماضي من قبل. وتعد القراءة من أهم الأمثلة على هذا، بالإضافة إلى التعرف على الأجسام الاصطناعية مثل السيارات والطائرات وإشارات الطريق وغيرها.

غير أن نظامنا البصري معروف أيضاً ببعض النواقص التي نعبر عنها على أنها خداع بصري، وقد حدد الباحثون بالفعل عدة أساليب يرتكب بها الإنسان الخطأ عند تقدير اللون والحجم والتراصف والحركة. ويعتبر هذا الخداع نفسه مثيراً للاهتمام، فهو يقدم معلومات حول طبيعة النظام البصري والإحساس؛ ولهذا فقد يكون من المفيد للغاية أن نوجِد وسائل نبني بها لوحات خداع بصري جديدة.

هل هذه دوائر موحدة المركز؟

وهنا يأتي دور التعلم العميق؛ حيث تعلمت الآلات في السنوات الأخيرة كيفية التعرف على الأشياء والوجوه في الصور وإعادة تشكيل صور مماثلة بنفسها، ولهذا من السهل أن نتخيل أن يتمكن نظام رؤية آلية من تعلم التعرف على الخداع البصري، وإعادة تشكيل لوحات جديدة للخداع البصري بنفسه.

وهنا قرر الباحثان روبرت ويليامز ورومان يامبولسكي (في جامعة لويسفيل في كنتاكي) أن يحققا هذا الإنجاز، ولكنهما اكتشفا أن الأمور ليست بهذه البساطة؛ حيث إن أنظمة التعلم الآلي الحالية غير قادرة على توليد لوحات خداع بصري خاصة بها، على الأقل حتى الآن، فما السبب؟

لنبدأ ببعض المعلومات الأساسية؛ حيث إن التطورات الأخيرة في التعلم العميق مبنية على مسألتين: الأولى هي توافر شبكات عصبونية قوية، وبضع حِيَل برمجية تزيد من براعة هذه الشبكات في التعلم، والثانية هي توافر قواعد بيانات ضخمة وتحمل إشارات تعبر عن محتواها، بحيث تستطيع الآلات أن تتعلم منها.

فمثلاً نجد أن تعليم الآلة أن تتعرف على الوجوه يتطلب وجود عشرات الآلاف من الصور التي تحتوي على وجوه، وتحمل في نفس الوقت إشارات واضحة تشير إلى وجود وجوه فيها. وبوجود هذه المعلومة المرفقة بالصورة، تستطيع الشبكة العصبونية أن تستخلص الأنماط المميزة لهذه الوجوه، مثل العينين والأنف والفم، بل يمكن أيضاً استخدام أسلوب أكثر إثارة يعتمد على شبكتين عصبونيتين -يطلق على هذا النظام اسم الشبكة العصبونية التنافسية التوليدية- بحيث يعلِّمان بعضهما كيفية تشكيل صور واقعية، ولكنها اصطناعية تماماً. وقد حاول ويليامز ويامبولسكي تعليم شبكة عصبونية كيفية كشف الخداع البصري بنفس الطريقة، وبوجود قوة الحوسبة اللازمة بقي فقط أن يقوما ببناء قاعدة بيانات من لوحات الخداع البصري بغرض التدريب.

وقد تبين للباحثين أن هذه المسألة صعبة، حيث يقولان: "لا يتجاوز عدد صور الخداع البصري الساكن بضعة آلاف، كما أن عدد الأنواع المتمايزة من الخداع البصري منخفض للغاية، وربما لا يتجاوز بضعة عشرات".

ويمثل هذا تحدياً كبيراً بالنسبة لأنظمة التعلم الآلي الحالية، حتى أن الباحثَين يقولان: "إن بناء نموذج قادر على التعلم من قاعدة بيانات صغيرة ومحدودة إلى هذه الدرجة يمثل قفزة كبيرة في النماذج التوليدية، وفي فهم الرؤية البشرية".

ولهذا قام الباحثان ببناء قاعدة بيانات مؤلفة من أكثر من 6,000 صورة خداع بصري، ودرَّبوا الشبكة العصبونية على التعرف عليها، ومن ثم قاموا ببناء شبكة عصبونية تنافسية توليدية لتقوم ببناء لوحات خداع بصري بنفسها.

لكن النتائج كانت مخيبة للآمال؛ حيث يقول الباحثان اللذان نشرا قاعدة البيانات للعامة: "لم يتم بناء شيء ذي قيمة بعد 7 ساعات من التدريب على وحدة المعالجة الرسومية تسلا كي 80".

غير أن هذه النتيجة مثيرة للاهتمام على أي حال، حيث يقول الباحثان: "إن الخداع البصري الوحيد المعروف للبشر ظهر نتيجة تطور الكائنات الحية (مثل شكل العين على أجنحة الفراشة) أو عمل الفنانين البشر". وفي كلتا الحالتين فإن البشر يلعبون دوراً هاماً في تقديم معلومة هامة، حيث إنهم قادرون على رؤية هذا الخداع.

ولكن أنظمة الرؤية الآلية -على ما يبدو- لا تستطيع أن ترى الخداع البصري، ويقول الباحثان: "إن من غير المرجح أن تتمكن الشبكة العصبونية التنافسية التوليدية من خداع الرؤية البشرية دون أن تتمكن من فهم المبادئ الكامنة خلف هذه الخدع".

وقد لا يكون هذا سهلاً؛ نظراً لوجود اختلافات جوهرية ما بين أنظمة الرؤية الآلية ونظام الرؤية البشرية. ويعمل عدة باحثين حالياً على تطوير شبكات عصبونية أقرب إلى نظام الرؤية البشرية، وقد يكون من المثير للاهتمام أن يتم اختبار قدرتها على رؤية الخداع البصري.

وحتى ذلك الحين لا يوجد ما يدعو الباحثين إلى التفاؤل، حيث "يبدو أن تشكيل لوحات جديدة للخداع البصري يتطلب أكثر من مجرد بناء قاعدة بيانات من الصور"، وبهذا سيبقى الخداع البصري حالياً تجربة بشرية بحتة لا تستطيع الآلات أن تستوعبها.

المحتوى محمي