ما هو التعلم كيو؟
شكل أساسي من أشكال التعلم المعزز الذي يسعى إلى إيجاد أفضل الأفعال التي يمكن القيام بها بالنظر إلى حالته الحالية المعطاة؛ حيث يقوم وكيل التعلم القائم على الجودة باختيار تلك الأفعال بشكل عشوائي ويهدف إلى تحقيق أعلى مكافأة ممكنة. ولتحقيق الأمر قد يختلق هذا الوكيل قواعد خاصة به أو قد يعمل خارج إطار السياسة المقدمة له ليتبعها لذلك يعتبر عديم السياسة (Off-Policy). ويعني ذلك أنه يتعلم سياسة جديدة تزيد المكافأة الإجمالية إلى الحد الأقصى.
يستخدم التعلم القائم على الجودة القيم كيو (Q-values) التي تعرف باسم "قيم الأفعال" بشكل متكرر لتحسين سلوك الوكيل. حيث يشير الحرف كيو (Q) إلى الجودة (Quality) التي تُمثل الدور الإيجابي لفعل ما في الحصول على مكافأة مستقبلية.
ومن الأمثلة الهامة على التعلم القائم على الجودة أنظمة توصية الإعلانات. في الحالة الطبيعية يقترح نظام التوصية التقليدي الإعلانات بناءً على عمليات الشراء السابقة أو المواقع التي تمت زيارتها. فإذا اشترى المستخدم تلفازاً ستكون الاقتراحات عبارة عن أجهزة تلفاز من أنواع مختلفة. يمكن استخدام التعلم القائم على الجودة لتعزيز ذلك النظام بحيث يقترح منتجات يتم شراؤها بشكل متكرر عادةً مع التلفاز. وفي هذه الحالة يُعطى المكافأة إذا ضغط المستخدم على أحد المنتجات المقترحة.