Saya bekerja dengan data yang tidak seimbang, di mana ada sekitar 40 kelas = 0 kasus untuk setiap kelas = 1. Saya dapat membedakan antara kelas menggunakan fitur individual, dan melatih Bayes naif dan classifier SVM pada 6 fitur dan data yang seimbang menghasilkan diskriminasi yang lebih baik (kurva ROC di bawah).
Tidak apa-apa, dan saya pikir saya baik-baik saja. Namun, konvensi untuk masalah khusus ini adalah untuk memprediksi hit pada tingkat presisi, biasanya antara 50% dan 90%. mis. "Kami mendeteksi sejumlah hit pada presisi 90%." Ketika saya mencoba ini, presisi maksimum yang bisa saya dapatkan dari pengklasifikasi adalah sekitar 25% (garis hitam, kurva PR di bawah).
Saya bisa memahami ini sebagai masalah ketidakseimbangan kelas, karena kurva PR sensitif terhadap ketidakseimbangan dan kurva ROC tidak. Namun, ketidakseimbangan tampaknya tidak mempengaruhi fitur individual: Saya bisa mendapatkan presisi yang cukup tinggi menggunakan fitur individual (biru dan cyan).
Saya tidak mengerti apa yang sedang terjadi. Saya bisa memahaminya jika semuanya berkinerja buruk di ruang PR, karena, setelah semua, data sangat tidak seimbang. Saya juga bisa memahaminya jika pengklasifikasi tampak buruk di ruang ROC dan PR - mungkin mereka hanya pengklasifikasi yang buruk. Tetapi apa yang terjadi untuk membuat pengklasifikasi lebih baik seperti yang dinilai oleh ROC, tetapi lebih buruk seperti yang dinilai oleh Precision-Recall ?
Sunting : Saya perhatikan bahwa di area TPR / Panggil rendah (TPR antara 0 dan 0,35), fitur individual secara konsisten mengungguli pengklasifikasi di kurva ROC dan PR. Mungkin kebingungan saya adalah karena kurva ROC "menekankan" area TPR tinggi (di mana pengklasifikasi bekerja dengan baik) dan kurva PR menekankan TPR rendah (di mana pengklasifikasi lebih buruk).
Sunting 2 : Pelatihan data tidak seimbang, yaitu dengan ketidakseimbangan yang sama dengan data mentah, menghidupkan kembali kurva PR (lihat di bawah). Saya kira masalah saya adalah melatih para pengklasifikasi secara tidak tepat, tetapi saya tidak sepenuhnya mengerti apa yang terjadi.
sumber
Cara terbaik untuk mengevaluasi model adalah dengan melihat bagaimana itu akan digunakan di dunia nyata dan mengembangkan fungsi biaya.
Sebagai tambahan, misalnya, ada terlalu banyak penekanan pada r kuadrat tetapi banyak yang percaya itu adalah statistik yang tidak berguna. Jadi, jangan terpaku pada salah satu statistik.
Saya menduga bahwa jawaban Anda adalah contoh dari paradoks akurasi.
https://en.m.wikipedia.org/wiki/Accuracy_paradox
Ingat (juga dikenal sebagai sensitivitas alias true positive rate) adalah fraksi dari contoh yang relevan yang diambil.
tpr = tp / (tp + fn)
Presisi (alias nilai prediktif positif) adalah sebagian kecil dari instance yang diambil yang relevan.
ppv = tp / (tp + fp)
Katakanlah Anda memiliki set 99 positif yang sangat tidak seimbang dan satu negatif.
Katakanlah seorang model dilatih di mana model mengatakan semuanya positif.
tp = 99 fp = 1 ppv menjadi 0,99
Jelas model sampah meskipun nilai prediktif positif "baik".
Saya merekomendasikan membangun satu set pelatihan yang lebih seimbang baik melalui oversampling atau undersampling. Setelah model dibangun kemudian gunakan set validasi yang menjaga ketidakseimbangan asli dan membangun bagan kinerja di atasnya.
sumber
Bolehkah saya hanya menunjukkan bahwa ini sebenarnya sebaliknya: ROC sensitif terhadap ketidakseimbangan kelas sementara PR lebih kuat ketika berhadapan dengan distribusi kelas yang miring. Lihat https://www.biostat.wisc.edu/~page/rocpr.pdf .
Mereka juga menunjukkan bahwa "algoritma yang mengoptimalkan area di bawah kurva ROC tidak dijamin untuk mengoptimalkan area di bawah kurva PR."
sumber