الحقيقة الأساسية Ground Truth

1 دقيقة

ما هي الحقيقة الأساسية؟

هي مصطلح يُستخدم لوصف الحقيقة الفعلية للبيانات التي يتعين على نموذج التعلم الآلي تعلمها، والتي تنعكس في مجموعات البيانات، إذ يتم تدريب نماذج التعلم الآلي الموجَّه على البيانات المصنفة التي تعتبر "حقيقة أساسية" للنموذج لتحديد الأنماط التي تتنبأ بهذه الوسوم على البيانات الجديدة.

أهمية الحقيقة الأساسية في التعلم الآلي 

في خوارزميات التعلم الآلي الموجَّه، تعد بيانات الحقيقة الأساسية مهمة لتدريب خوارزميات جديدة. تشكّل مجموعات البيانات المشروحة الحقيقة الأساسية للتعلم الآلي وخوارزميات التعلم العميق للتعرف على الأنماط بشكلٍ أفضل من خلال زيادة تنوع البيانات.

كيفية تحديد الحقيقة الأساسية للنموذج

يكافئ تحديد الحقيقة الأساسية لنموذج التعلم الآلي تحديد الهدف من إنشائه، وهي مسؤولية الخبير البشري، بحيث يقوم باختيار جميع السمات التي يمكن أن تؤثّر في الهدف المحدد مسبقاً أو يقوم بتقسيم الهدف لمجموعات مزايا في مجموعة البيانات.

بناء مجموعة بيانات الحقائق الأساسية

توجد خطوات عامة لإنشاء مجموعة بيانات حقائق أساسية ونشرها لتصبح قاعدة يستند إليها في شركات التعلم الآلي، وتُستخدم بشكل خاص أو يُستفاد منها من جهات خارجية:

  1.  التخطيط: تحديد احتياجات الخوارزميات التي سيتم تدريبها على البيانات. يجب أن تحدد كمية البيانات المطلوبة ونوع وأسلوب البيانات ودرجة التباين التي تتم نمذجتها من العالم الفعلي.
  2. المشروع التجريبي: تنفيذ مشروع تجريبي لجمع كمية متواضعة من العينات، والغرض في هذه المرحلة هو تحديد العقبات التي تعترض جمع البيانات وتجميع فريق العمل المناسب للمهمة.
  3. البحث في خصوصية البيانات وقوانين الامتثال: قبل النشر، يجب على الشركة التشاور مع أقسامها القانونية لمعرفة التداعيات القانونية لجمع البيانات.
  4. تصميم المشروع: وضع الدراسة بالاعتماد على نتائج المشروع التجريبي بحيث تشمل الدراسة مصادر البيانات وعدد المشاركين في جمع البيانات وتقنيات تقييم وضمان جودة البيانات. وفي بعض الحالات، يمكن استخدام التقنيات الآلية أو مصادر البيانات الحالية لتقليل الجهود.
  5. التعليقات التوضيحية: في هذه المرحلة يتم توظيف فريق من الأفراد ويقومون بمراجعة عينات البيانات وإضافة شروحات لها وفقاً لمواصفات المشروع.
  6. مراجعة جودة البيانات: بعد أن تصبح مجموعات البيانات جاهزة، يقوم الفريق بتقييم جودة الشروح والتحيزات المحتملة التي تخضع لها مجموعات البيانات.

المحتوى محمي