تملك الرؤية الحاسوبية سجلاًّ مُذهلاً؛ حيث تتفوق على البشر في إمكانية التعرُّف على الأشخاص والوجوه والأشياء. كما يمكنها التعرف على أنواعٍ مختلفة من الحركات، وإنْ لم يكن بنفس قدرة البشر على ذلك حتى الآن.
غيرَ أن هناك حدوداً لأدائِها؛ حيث تعاني الآلات من صعوباتٍ على وجه الخصوص عندما يكون الأشخاص أو الوجوه أو الأشياء محجوبةً بشكلٍ جزئي. وعندما يتناقص مُستوى الإضاءة كثيراً، تصبح عَمياء عملياً، تماماً كالبشر.
ولكن هناك جزءاً آخر من الطيف الكهرطيسي لا تنطبق عليه المحدودية من هذه الناحية؛ فالأمواج الراديوية تملأ عالمنا ليل نهار، وتمر بسهولة عبر الجدران، كما أن جسم الإنسان يبثُّها ويعكِسُها. وبالفعل، قام الباحثون بتطوير طرق متنوعة لاستخدام الإشارات الراديوية اللاسلكية (WiFi) ليتمكنوا من رؤية ما وراء الأبواب المُغلقة.
لكن لأنظمة الرؤية الراديوية هذه بعض أوجه القُصور؛ حيث إنَّ دقَّتها مُنخفضة، فتكون الصور فيها مُشوَّشة ومليئة بالانعكاسات المُشتِّتة للانتباه، مما يجعل من الصعب فهم محتواها.
وفي هذا السياق، فإن كلاً من الصور الراديوية وصور الضوء المرئي له مزاياه وعُيوبه المُكمِّلة لبعضها البعض. مما يطرح إمكانية استخدام مواطن القوة في إحداها للتغلُّب على أوجه القُصور في الأخرى.
وهنا يأتي دور تيانهونج لي وزملاؤه في إم آي تي، الذين اكتشفوا طريقة لتعليم نظام رؤية راديوي التعرُّفَ على حركات الأشخاص من خلال تدريبه على صور الضوء المرئي. ويستطيع نظام الرؤية الراديوي الجديد رؤيةَ ما يفعله الأفراد في مجالٍ واسع من المواقف التي يفشل فيها التصوير بالضوء المرئي. يقول لي وزملاؤه:" نُقدِّم نموذج شبكة عصبونية يستطيع التعرُّف على حركات الأشخاص عبر الجدران والعوائق، حتى في ظروف الإضاءة السيئة".
ويستخدم أسلوب الفريق حيلة مُتقَنة؛ حيث تكمُن الفكرة الأساسية لهذا الأسلوب في تسجيل تصوير فيديو لنفس المشهد باستخدام كلٍّ من الضوء المرئي والأمواج الراديوية. وبما أن أنظمة الرؤية الحاسوبية تستطيع بالفعل التعرُّف على حركات الإنسان من صور الضوء المرئي، فإن الخطوة التالية تتمثَّل في ربط هذه الصور مع الصور الراديوية للمشهد نفسه.
غير أن الصعوبة تكمن في ضمان أن عملية التعلم تركِّز على حركة الإنسان وليس على خصائص أخرى مثل خلفيّة المشهد؛ لذا أضاف لي وزملاؤه خطوة وسيطة تقوم فيها الآلة بتوليد هياكل ثلاثية الأبعاد لأجسام على شكل عِصِيّ، تُحاكي حركات الأشخاص في المشهد.
يقول لي وزملاؤه:"من خلال ترجمة المُدخَلات إلى تمثيل وسطي مبني على هذه الهياكل، يتمكن نموذجنا من إجراء عملية التعلم من مجموعتي البيانات؛ الأولى قائمة على الرؤية في الضوء المرئي والثانية قائمة على التردُّد الراديوي، مُتيحاً بذلك للطريقتين مؤازرةَ بعضهما.
وبهذه الطريقة يتعلم النظامُ التعرُّفَ على الحركات في الضوء المرئي، ثم يستخدم الأمواج الراديوية ليتعرَّف على الحركات نفسها عندما تتم في الظلام أو خلف الجدران. يقول الباحثون: "نبيِّن أن نموذجنا يُحرز دِقَّةً مُماثلة لأنظمة التعرُّف على الحركة التي تستند إلى الرؤية في سيناريوهات مرئية، ويتفوَّق عليها في أنه يواصِل العمل أيضاً بدقة عندما يكون الأشخاص غير مرئيين".
إنه عملٌ مثير للاهتمام وذو إمكانات كبيرة، وتتمثل التطبيقات الواضحة له في حالات فشل صور الضوء المرئي؛ في ظروف الإضاءة الضعيفة وخلف الأبواب المغلقة.
ولكن هناك تطبيقات أخرى أيضاً، فأحد مشاكل صور الضوء المرئي هي إمكانية التعرف على الأشخاص فيها، مما يثير قضايا الخصوصية.
أما نظام الراديو فلا يتمتَّع بالدقة اللازمة للتعرُّف على الوجوه، وبالتالي فإن التعرُّف على الحركات من دون التعرُّف على الوجوه لا يُثير ذات المخاوف المُتعلِّقة بالخصوصية. يقول لي وزملاؤه: "يستطيع هذا النظام إدخال التعرف على الحركة إلى منازل الناس وإتاحة دمجها في أنظمة البيوت الذكية"؛ حيث يمكن استخدامها في مراقبة منزل شخص مُسِنّ وإخطار الخدمات المعنية عند سقوطه على سبيل المثال.
ويمكن لهذا النظام فعل هذه كله دون تعريض خصوصية الأشخاص للخطر، كما أن هذا الأمر يتخطَّى قدرات أنظمة الرؤية المُتاحة حالياً.
المرجع: arxiv.org/abs/1909.09300:
تحويل المحجوب إلى مرئي: التعرف على الحركة عبر الجدران والعوائق.