Kurva ROC untuk dataset tidak seimbang

10

Pertimbangkan matriks input dan output biner .Xy

Cara umum untuk mengukur kinerja classifier adalah dengan menggunakan kurva ROC.

Dalam plot ROC, diagonal adalah hasil yang akan diperoleh dari classifier acak. Dalam hal output tidak seimbang , kinerja classifier acak dapat ditingkatkan dengan memilih atau dengan probabilitas berbeda.y01

Bagaimana kinerja classifier seperti itu diwakili dalam plot kurva ROC? Saya kira itu harus menjadi garis lurus dengan sudut yang berbeda, dan bukan diagonal lagi?

Contoh kurva ROC

Donbeo
sumber
2
Anda mungkin ingin mencoba kurva recall-presisi sebagai gantinya, "Plot Recall-Recall Lebih Informatif daripada Plot ROC Ketika Mengevaluasi Klasifikasi Biner pada Kumpulan Data yang Tidak Seimbang ", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , kemungkinan lebih banyak situs web yang dapat diakses yang dibuat oleh penulis makalah ini, classeval.wordpress.com/simulation-analysis/…
zyxue

Jawaban:

16

Kurva ROC tidak sensitif terhadap keseimbangan kelas. Garis lurus yang Anda dapatkan untuk pengelompokan acak sekarang sudah merupakan hasil dari menggunakan berbagai probabilitas menghasilkan positif (0 membawa Anda ke (0, 0) dan 1 membawa Anda ke (1, 1) dengan kisaran di antara setiap).

Tidak ada yang berubah dalam pengaturan yang tidak seimbang.

Marc Claesen
sumber
1
Saya merasa terbantu untuk mempertimbangkan arti area di bawah kurva untuk melihat mengapa diagonal tidak berubah. AUC dapat diartikan sebagai probabilitas bahwa contoh positif yang dipilih secara acak akan memiliki skor yang lebih tinggi daripada contoh negatif yang dipilih secara acak. 1 . Ini membuatnya lebih jelas bagi saya mengapa ketidakseimbangan kelas bukan masalah.
JBecker