تنظيف البيانات DATA CLEANING

1 دقيقة

ما هي عملية تنظيف البيانات؟

عملية تحضير البيانات قبل استخدامها في تطبيقات التحليل أو التعلم الآلي عن طريق مجموعة من الإجراءات التي تشمل إيجاد وإصلاح أو إزالة كافة البيانات غير الصحيحة والتالفة والمكررة وغير الكاملة والمصاغة بشكل خاطئ وغير ذات الصلة من مجموعة بيانات ما. يُعد الهدف الرئيسي من عملية تنظيف البيانات رفع دقة وجودة مجموعات البيانات المختلفة إلى الحد الأقصى دون حذف المعلومات الهامة منها.

يؤدي جمع البيانات من مصادر متعددة إلى إمكانية وجود نسخ مكررة أو تالفة أو غير صحيحة وما إلى ذلك من مشكلات. وفي حال احتوت مجموعة البيانات على الكثير من الأخطاء ستصبح نتائج الخوارزميات المختلفة غير موثوقة. وبالنتيجة تأتي أهمية عملية تنظيف البيانات من حقيقة أن جودة مجموعات البيانات عامل رئيسي مؤثر في قوة أداء ودقة نتائج نماذج التعلم الآلي وغيرها من النماذج الإحصائية وعمليات التحليل.

المحتوى محمي