ما هي عملية تعزيز البيانات؟
عبارة عن تقنية تُستخدم لتحسين نماذج التعلم الآلي وجعلها أكثر عموميةً وكفاءةً حتى في الحالات التي لا تتوفر فيها مجموعات بيانات كبيرة بشكلٍ كافٍ. ويتم ذلك عن طريق زيادة كمية البيانات الأصلية المتاحة بإضافة نسخ مُعدلة منها أو إنشاء بيانات مصطنعة جديدة بالاعتماد عليها. تُساعد عملية تعزيز البيانات أيضاً على تلافي مشكلة فرط الملاءمة التي تحدث عند تدريب النماذج باستخدام مجموعة بيانات صغيرة الحجم وذات جودة منخفضة.
كيف يتم إجراؤها؟
تستخدم هذه العملية بشكل أساسي في تطبيقات التعلم العميق في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية؛ حيث تكون البيانات عبارة عن صور ونصوص ويتم ذلك بالطرق التالية:
- التعزيز في مجال الرؤية الحاسوبية: يتم عن طريق إجراء تعديلات بسيطة على البيانات المرئية باستخدام تقنيات معالجة الصورة؛ مثل التدوير العشوائي والعكس الأفقي أو العمودي وتغيير الحجم والتباين والسطوع والألوان والقص والتكبير وإضافة الضجيج وغيرها. بالإضافة إلى الاعتماد على الشبكات التوليدية التنافسية (GANs) لإنشاء بيانات مصطنعة.
- التعزيز في مجال معالجة اللغة الطبيعية: يُعد استخدام عملية تعزيز البيانات في تطبيقات معالجة اللغة الطبيعية أقل شيوعاً من استخدمها في تطبيقات الرؤية الحاسوبية. وتكون عملية التعزيز أكثر صعوبة مع البيانات النصية وتتم بطرق مختلفة أهمها استبدال المترادفات وتبديل مواقع الكلمات وحذف بعضها، أو تضمين كلمات مقترنة بسياق النص والترجمة العكسية.