تسمية البيانات Data Labelling

1 دقيقة

ما هي تسمية البيانات؟

هي مرحلة من مراحل التعلم الآلي تهدف إلى تحديد الكائنات في البيانات الأولية (مثل الصور أو الفيديو أو الصوت أو النص) ووضع علامات عليها بتسميات تساعد نموذج التعلم الآلي على إجراء تنبؤات وتقديرات دقيقة.

ما هي أهمية تسمية البيانات؟

تتطلب تسمية البيانات تحديد البيانات الأولية (أي الصور والملفات النصية ومقاطع الفيديو)، ثم إضافة اسم واحد أو أكثر لتلك البيانات لتحديد سياقها للنماذج، ما يسمح لنموذج التعلم الآلي بإجراء تنبؤات دقيقة.

تدعم تسمية البيانات حالات استخدام مختلفة للتعلم الآلي والتعلم العميق، بما في ذلك الرؤية الحاسوبية ومعالجة اللغة الطبيعية (NLP).

تعتبر مجموعات البيانات المُسمّاة ذات أهمية خاصة لنماذج التعلم الخاضعة للإشراف، إذ تساعد النموذج على معالجة البيانات المدخلة وفهمها. بمجرد تحليل أنماط البيانات، إمّا أن تتطابق التوقعات مع هدف النموذج الخاص بك أو لا تتطابق معه. بالتالي سيتمكن المبرمج من تحديد فيه ما إذا كان النموذج يحتاج إلى مزيد من الضبط والاختبار.

على الرغم من أن البيانات الأولية في حد ذاتها لا تعني الكثير بالنسبة للنموذج الخاضع للإشراف، فإن البيانات ذات التصنيف السيئ قد تتسبب في انهيار نموذجك.

كيف تعمل تسمية البيانات؟

تعمل تسمية البيانات وفق ترتيب الخطوات التالي:

  1. جمع البيانات: يتم جمع البيانات الخام التي سيتم استخدامها لتدريب النموذج. يتم تنظيف هذه البيانات ومعالجتها لتشكيل قاعدة بيانات يمكن تغذيتها مباشرة إلى النموذج.
  2. وضع علامات على البيانات: تُستخدم طرق وضع علامات البيانات المختلفة لتصنيف هذه البيانات وربطها بالسياق المجدي الذي يمكن للجهاز استخدامه كحقيقة أرضية.
  3. ضمان الجودة: غالباً ما يتم تحديد جودة تعليقات البيانات من خلال مدى دقة العلامات لنقطة بيانات معينة ومدى دقة نقاط الإحداثيات في مربع التعليقات المرتفعة وشروحات المفاتيح.

المحتوى محمي