كنز جديد من البيانات يعلم الحواسيب كيفية إجابة المكفوفين عن أسئلتهم

إن "الإجابة عن الأسئلة المرئية" -أي: الإجابة عن سؤال يتعلق بصورة ما- تعد إحدى أصعب المهام التي تواجه الأجهزة الحاسوبية، ونحن لا نتحدث هنا عن ألعاب التفكير النظرية؛ فمثل هذه المهارات يمكنها أن تلعب دوراً حاسماً بالنسبة للتقنيات التي تساعد المكفوفين في حياتهم اليومية.

ويمكن للمكفوفين استخدام تطبيقات مخصصة لالتقاط صورة ما، وتسجيل أسئلة مثل: "ما لون هذا القميص؟"، أو "متى تنتهي صلاحية هذا الحليب؟"، ثم يطلبون من أشخاص متطوعين تقديم إجابات لهذه الأسئلة. ولكن الصور غالباً ما تكون مؤطرة بشكل سيئ، أو سيئة التركيز، أو أنها تفتقد للمعلومات اللازمة للإجابة على السؤال، وهو أمر طبيعي؛ فنحن في النهاية نتحدث عن مصورين لا يمكنهم الرؤية.

يمكن لأنظمة الرؤية الحاسوبية أن تساعد -على سبيل المثال- في فلترة الصور غير المناسبة، واقتراح محاولة التصوير مرة أخرى، لكن الآلات لا يمكنها القيام بذلك بعد، ولو جزئياً؛ وذلك لعدم وجود مجموعة كبيرة من البيانات لصورٍ واقعية يمكن استخدامها في تدريب هذه الآلات.

وقد انضمت دانا جوراري من جامعة تكساس في أوستن مع عدد قليل من زملائها إلى هذا الاتجاه؛ حيث نشروا في نهاية فبراير 2018 قاعدة بيانات تضم 31,000 صورة، بالإضافة إلى مجموعة من الأسئلة والأجوبة المتعلقة بهذه الصور. وفي الوقت نفسه وضعت جوراري وزملاؤها تحدياً أمام مجتمع الرؤية الآلية، يتمثل في استخدام مجموعة البيانات الخاصة بهم لتدريب الآلات على أن تكون مساعدات فعالة لمواجهة هذا النوع من المشاكل الواقعية.

وتأتي مجموعة البيانات من تطبيق متوفر يسمى "فيزويز -VizWiz "، الذي قام بتطويره جيف بيجهام وزملاؤه (من جامعة كارنيجي ميلون في بيتسبرج) من أجل مساعدة المكفوفين، كما أن بيجهام عضو في فريق البحث هذا.

ويمكن للشخص المكفوف باستخدام هذا التطبيق أن يلتقط صورة ويسجل سؤالاً شفهياً، ثم يرسلهما معاً إلى فريق من المساعدين المتطوعين الذين يقدمون إجابتهم على أفضل وجه.

لكن التطبيق ينطوي على عدد من العيوب؛ فالمتطوعون غير متوفرين بشكل دائم مثلاً، وأيضاً فإن الصور المتوافرة لا تجعل الإجابة ممكنة دائماً.

وقد بدأت جوراري مع زملائها -في محاولة منهم للعثور على طريقة أفضل- تحليلَ أكثر من 70,000 صورة، جمعها تطبيق فيزويز من المستخدمين الذين وافقوا على مشاركتها، وحذف الفريق جميع الصور التي تحتوي على تفاصيل شخصية (مثل معلومات بطاقات الائتمان أو العناوين، أو التي تحتوي على عري)؛ ليبقى منها في النهاية نحو 31,000 صورة مع التسجيلات المرتبطة بها.

ثم قام فريق البحث بعد ذلك بتقديم الصور والأسئلة المرافقة إلى عدد من العاملين في خدمة "أمازون ميكانيكال تورك" للتعهيد الجماعي المقدمة من أمازون، وطلب من كل عامل أن يقدِّم إجابة مكونة من جملة قصيرة، ثم جمع الفريق 10 إجابات لكل صورة للتحقق من التوافق فيما بينها.

وتُشكِّل كل هذه الصور (البالغ عددها 31,000 صورة مع الأسئلة والإجابات) قاعدة بيانات فيزويز الجديدة، والتي جعلتها جوراري وزملاؤها متاحة للعموم.

كما أجرى فريق البحث أيضاً تحليلاً أولياً لهذه البيانات، قدَّم فيه معلومات فريدة متعمقة حول التحديات التي تواجهها الرؤية الآلية عند تقديم هذا النوع من المساعدة.

تكون الأسئلة بسيطة في بعض الأحيان وليس دائماً، ويمكن تلخيص العديد منها على نحو "ما هذا؟"، ومع ذلك فإن 2٪ منها فقط يتطلب الإجابة بنعم أو لا، وأقل من 2% منها يمكن إجابته بالأرقام.

وهناك سمات أخرى غير متوقعة أيضاً؛ فعلى الرغم من أن معظم الأسئلة تبدأ بكلمة "ماذا"، إلا أن ربعها تقريباً يبدأ بكلمة غريبة جداً، ويكاد يكون من المؤكد أن هذا قد حدث بسبب حذف بداية السؤال عند إجراء عملية التسجيل.
ولكن لا تزال الإجابات ممكنة في كثير من الأحيان؛ ولننظر مثلا في أسئلة مثل: "هل سيتم البيع أم الاستخدام وفق تاريخ إنتاج علبة الحليب هذه؟" أو "هل تم إعداد الفرن على وضعية الشكر؟"؛ إذ إن من السهل الإجابة على كلا السؤالين، في حال كانت الصورة توفر المعلومات الصحيحة.

وقد حلَّل فريق البحث أيضاً هذه الصور، ووجد أن أكثر من ربعها غير مناسب للحصول على إجابة، إما لأنها غير واضحة، أو لعدم احتوائها على المعلومات ذات الصلة. وستشكِّل القدرة على تحديد هذه المعلومات بسرعة وبدقة بدايةً جيدة لخوارزمية الرؤية الآلية.

وهنا يظهر التحدي الذي يواجه مجتمع الرؤية الآلية؛ حيث تقول جوراري وزملاؤها: "إننا نقدم هذه المجموعة من البيانات من أجل تشجيع أوساطٍ أوسع نطاقاً على تطوير خوارزميات أكثر عمومية يمكنها أن تساعد المكفوفين، كما يمكن أن يسهم تحسين الخوارزميات الخاصة بفيزويز في توعية المزيد من الناس حول الاحتياجات التكنولوجية للمكفوفين، وفي نفس الوقت توفر فرصة جديدة ومثيرة للباحثين من أجل تطوير التقنيات المساعدة على إزالة العوائق التي تحول دون سهولة الاستخدام بالنسبة للمكفوفين".