Saya ingin membandingkan 2 pengklasifikasi yang berbeda untuk masalah klasifikasi teks multi-kelas yang menggunakan dataset pelatihan besar. Saya ragu apakah saya harus menggunakan kurva ROC atau kurva belajar untuk membandingkan 2 pengklasifikasi.
Di satu sisi, kurva pembelajaran berguna untuk menentukan ukuran dataset pelatihan, karena Anda dapat menemukan ukuran dataset di mana classifier berhenti belajar (dan mungkin menurun). Jadi pengklasifikasi terbaik dalam hal ini mungkin yang mencapai akurasi tertinggi dengan ukuran dataset terkecil.
Di sisi lain, kurva ROC memungkinkan Anda menemukan titik dengan trade-off yang tepat antara sensitivitas / spesifisitas. Pengklasifikasi terbaik dalam hal ini adalah yang paling dekat dengan bagian kiri atas, dengan TPR tertinggi untuk FPR apa pun.
Haruskah saya menggunakan kedua metode evaluasi? Apakah mungkin suatu metode dengan kurva belajar yang lebih baik memiliki kurva ROC yang lebih buruk, dan sebaliknya?
sumber
Jawaban:
Kurva pembelajaran hanyalah alat diagnosa, memberi tahu Anda seberapa cepat model Anda belajar dan apakah seluruh analisis Anda tidak terjebak dalam area unik dengan set yang terlalu kecil / ensemble terlalu kecil (jika berlaku). Satu-satunya bagian dari plot ini yang menarik untuk penilaian model adalah akhirnya, yaitu kinerja akhir - tetapi ini tidak perlu plot untuk dilaporkan.
Memilih model berdasarkan kurva pembelajaran saat Anda membuat sketsa dalam pertanyaan Anda adalah ide yang buruk, karena Anda cenderung memilih model yang paling cocok untuk overfitting pada set sampel yang terlalu kecil.
Tentang ROC ... Kurva ROC adalah metode untuk menilai model biner yang menghasilkan skor kepercayaan bahwa suatu objek termasuk dalam satu kelas; mungkin juga untuk menemukan mereka ambang terbaik untuk mengubahnya menjadi pengklasifikasi yang sebenarnya.
Apa yang Anda gambarkan lebih merupakan gagasan untuk memplot kinerja pengklasifikasi Anda sebagai sebaran TPR / FPR di ruang ROC dan menggunakan kriteria sudut terdekat-ke-kiri-atas untuk memilih ini yang paling seimbang antara menghasilkan alarm dan kehilangan yang salah - - Tujuan khusus ini dapat lebih elegan dicapai hanya dengan memilih model dengan skor-F terbaik (rata-rata harmonis presisi dan daya ingat).
sumber