ما هي بيانات التدريب؟
مجموعة البيانات الضخمة الأولية التي تُستخدم لتدريب نماذج التعلم الآلي على إجراء عمليات التنبؤ أو أداء مهمة ما مطلوبة. يعتمد نموذج التعلم الآلي على مجموعة بيانات التدريب لإيجاد العلاقات واكتشاف الأنماط وفهم المشكلات المعقدة واتخاذ القرارات. وتُعد هذه البيانات عنصر أساسي في غاية الأهمية بالنسبة لذلك النموذج. وذلك نظراً لكون نجاحه يتوقف على جودتها وكميتها وتنوعها.
يختلف نوع وصيغة بيانات التدريب باختلاف خوارزمية التعلم الآلي المُستخدمة. ففي حالة خوارزمية شجرة القرار مثلاً تكون البيانات عبارة عن نصوص أو حروف وأعداد. بينما في حالة الشبكات العصبونية الالتفافية تكون عبارة عن صور. وإذا تم استخدام أسلوب التعلم الموجّه تكون تلك البيانات موسومة، أما إذا تم استخدام التعلم غير الموجّه فتكون غير موسومة.