ما هي خوارزمية تجميع كي-المتوسط؟
واحدة من أشهر خوارزميات التعلم الآلي غير الموجه تُستخدم لتصنيف البيانات غير الموسومة عن طريق تجميعها اعتماداً على الميزات بدلاً من التصنيفات المعرفة مسبقاً. يُمثل المتغير كي (K) في اسم خوارزمية تجميع كي-المتوسط عدد المجموعات أو التصنيفات التي سيتم إنشاؤها. فالهدف من هذه الخوارزمية تقسيم البيانات إلى "كي" مجموعة مختلفة والإبلاغ عن موقع مركز الكتلة لكل مجموعة، ثم إسناد نقاط البيانات الجديدة إلى المجموع أو الصنف ذي مركز الكتلة الأقرب.
تطبيق خوارزمية تجميع كي-المتوسط
- يقوم المستخدم باختيار عدد المجموعات المتوقعة (k).
- تقوم الخوارزمية بتحديد مراكز المجموعة بشكل عشوائي.
- يقوم المستخدم بعرض مخطط بياني لتقدير عدد المجموعات (n) المختلفة عن بعضها بعضاً.
- تحسب الخوارزمية المسافة بين أي نقطة على المخطط ومركز المجموعة (n).
- يتم تصنيف النقطة ضمن المجموعة (n) الأقرب لمركز المجموعة، أي المسافة الأقصر.
- بعد تصنيف كل النقاط، نقوم بتغيير مراكز المجموعات عن طريق إعادة حساب مركز كل مجموعة، بأخذ متوسط (mean) قيمة كل متجهات النقاط المصنفة ضمن المجموعة.
- يقوم المستخدم بتكرار الخطوات الثلاث الأخيرة للحصول على القيم الأكثر منطقية.
مزايا خوارزمية تجميع كي-المتوسط
من أهم مزايا الخوارزمية أنها سريعة التكيّف مع الأمثلة الجديدة، وتناسب مجموعات البيانات الكبيرة، كما أنها سريعة جداً حيث لا يوجد عدد كبير من العمليات لتحديد المجموعات ومراكزها، وقابلة للتعميم على مجموعات ذات أشكال مختلفة مثل العناقيد الإهليجية.
سلبيات خوارزمية تجميع كي-المتوسط
من أبرز سلبيات الخوارزمية أن المستخدم سيقوم بتحديد قيمة (k)، إضافة إلى مشكلة تجميع البيانات عندما تكون المجموعات ذات أحجام وكثافات مختلفة، ما يجعل الخوارزمية بحاجة للتعميم لتجميع هذه البيانات.