التعرف الضوئي على المحارف OPTICAL CHARACTER RECOGNITION (OCR)

1 دقيقة

ما هو التعرف الضوئي على المحارف؟

يعرف أيضاً باسم التعرف على النصوص، وهو استخدام تقنيات مثل معالجة الصورة والذكاء الاصطناعي لتمييز النصوص المطبوعة أو المكتوبة يدوياً داخل الصور الرقمية للمستندات الفيزيائية مثل المستندات الورقية الممسوحة ضوئياً، واستخراج تلك النصوص لتخزينها كبيانات رقمية. تتضمن عملية التعرف الضوئي على المحارف فحص النصوص الموجودة في المستندات وترجمة المحارف إلى شيفرات رقمية يمكن للحواسيب فهمها واستخدامها لمعالجة تلك النصوص.

كيف تعمل برمجيات التعرف الضوئي على المحارف؟

تتجلى الخطوة الأولى في عملية التعرف الضوئي على المحارف في استخدام الماسح الضوئي لمعالجة المستندات الفيزيائية وتحويلها إلى صور. وبمجرد نسخ كافة الصفحات تبدأ عملية التعرف؛ حيث يتم تحويل المستند إلى اللونين الأبيض والأسود. ثم يتم تحليل الصور لتحديد المناطق الداكنة والفاتحة؛ إذ تُعتبر المناطق الداكنة محارف يجب التعرف عليها والمناطق الفاتحة خلفية.

بعد الانتهاء من الخطوات السابقة تتم معالجة المناطق الداكنة للتعرف على حروف الأبجدية والأرقام العددية، ويتم ذلك بواحدة من الطرق التالية:

  1. التعرف على الأنماط: تعتمد هذه الطريقة على تدريب نماذج التعلم الآلي لأداء مهمة التعرف على المحارف الموجودة في المستند باستخدام أمثلة نصية تتضمن خطوط وصيغ متنوعة.
  2. كشف الميزات: تعتمد هذه الطريقة على برمجيات تقوم بمقارنة الميزات المكتشفة في كل محرف بمجموعة مخزنة مسبقاً من الميزات الخاص بالمحارف والأرقام للتعرف عليه. وقد تشمل هذه الميزات عدد الخطوط الزاوية أو المتقاطعة أو المنحنية. فعلى سبيل المثال يمكن تخزين حرف “A” بالحالة الكبيرة على أنه خطين قطريين يتقاطعان مع خط أفقي في المنتصف.

المحتوى محمي