في التصنيف الإحصائي، فإن معدل خطأ بايز هو أقل معدل خطأ ممكن لأي مصنِّف لنتيجة عشوائية ( على سبيل المثال، التصنيف إلى واحدة من فئتين). وهو مماثل للخطأ غير القابل للاختزال. [1][2]
يوجد عدد من الطرق لتقدير معدل الخطأ في بيز. فمثلاً تسعى إحدى الطرق للحصول على حدود تحليلية تعتمد في الأصل على متغيرات التوزيع، وبالتالي يصعب تقديرها. ويركز نهج آخر على الكثافة كل صنف، في حين تجمع طريقة أخرى بين المصنفات المختلفة وتقارن بينها.
وتعتبرمعدل خطأ بايز ذات أهمية كبيرة في دراسة الأنماط والتعلم الآلي.[3]
تقدير الخطأ
من حيث التعلم الآلي وتصنيف الأنماط، يمكن تقسيم التسميات الخاصة بمجموعة من الملاحظات العشوائية إلى فئتين أو أكثر. تسمى كل ملاحظة (instance) والفئة التي تنتمي إليها هي (label). معدل الخطأ في بايز لتوزيع البيانات هو احتمال أن يتم تصنيف الحالة بشكل خاطئ بواسطة مصنف يعرف احتمال الفئة الصحيحة. بالنسبة لمصنف متعدد الفئات، قد يتم حساب معدل خطأ بيزعلى النحو التالي:
حيث x هو تمثل الحالة، Ci هي فئة يالحالة، Hi هي المنطقة التي تُصنف كـ Ci بواسطة دالة التصنيف.
يعتبر خطأ بايز غير صفري إذا كانت فئات التصنيف غير حتمية، أي أن هناك احتمالًا غير صفري لحقيقة معينة تنتمي لأكثر من فئة واحدة.
المراجع
- Fukunaga, Keinosuke (1990) Introduction to Statistical Pattern Recognition by
- K. Tumer, K. (1996) "Estimating the Bayes error rate through classifier combining" in Proceedings of the 13th International Conference on Pattern Recognition, Volume 2, 695–699
- Hastie, Trevor. The Elements of Statistical Learning (الطبعة 2nd). Springer. صفحة 17. .