Rata-rata presisi dan daya ingat saat menggunakan validasi silang

11

Saya telah melakukan klasifikasi menggunakan beberapa pengklasifikasi untuk data berlabel 2 kelas, dan saya menggunakan validasi silang 5 kali lipat. Untuk setiap lipatan saya menghitung tp, tn, fp, dan fn. Kemudian saya menghitung akurasi, ketepatan, daya ingat dan skor-F untuk setiap tes. Pertanyaan saya adalah, ketika saya ingin hasil rata-rata, saya mengambil rata-rata akurasi, tetapi dapatkah saya rata-rata presisi, mengingat dan F-skor juga? Atau apakah ini salah secara matematis? NB Dataset yang digunakan dalam setiap lipatan seimbang dalam hal jumlah instance per kelas.

Terima kasih.

Kalaji
sumber
3
Saya mengalami masalah yang sama tentang menghitung ukuran-F (rata-rata harmonis presisi dan penarikan kembali) menggunakan validasi silang. Dalam makalah ini mereka benar-benar menunjukkan bahwa menghitung ukuran-F pada set lengkap, dan bukan rata-rata, adalah metode yang kurang bias. Saya harap ini bisa membantu
papafe
3
@markusian Silakan tambahkan ini sebagai jawaban! Sejauh ini hal yang paling penting di halaman ini !!
drevicko

Jawaban:

2

The -score, dengan asumsi Anda menggunakan definisi biasa, sudah merupakan kombinasi dari presisi dan recall. Secara khusus, itu adalah rata-rata harmonik dari mereka. Dengan kata lain Ini dimaksudkan untuk menangkap 'keefektifan' sistem di mana pengguna menempatkan bobot yang sama pada presisi dan daya ingat. Ada ekstensi, yang disebut skor , yang memberi kali lebih banyak bobot untuk diingat daripada presisi. Hidup sisi lain, jika Anda bertanya apakah Anda dapat rata-rata 5F

F1=2precisionrecallprecision+recall
Fββ
Fβ=(1+β2)precisionrecall(β2precision)+recall
Fskor (satu dari setiap lipatan), maka jawabannya adalah ya. Bahkan, itulah cara khas untuk melaporkan kinerja sistem!

Perlu diketahui bahwa ada beberapa masalah dengan menggunakan nilai-nilai ini untuk membuat kesimpulan tentang kesalahan generalisasi pengklasifikasi. Misalnya, uji- antara skor untuk satu classifier dan skor untuk classifier lain akan terlalu optimis.tFF

Matt Krause
sumber
Ya, saya menggunakan formula pertama. Ini berarti bahwa rata-rata skor-F dari tes yang berbeda menghasilkan hasil yang mirip dengan rata-rata presisi dan daya ingat dan kemudian menghitung skor-F dari mereka. Saya mencoba ini pada hasil yang saya miliki dan itu hampir sama. Terima kasih.
Kalaji