Rata-rata presisi dan daya ingat saat menggunakan validasi silang

Saya telah melakukan klasifikasi menggunakan beberapa pengklasifikasi untuk data berlabel 2 kelas, dan saya menggunakan validasi silang 5 kali lipat. Untuk setiap lipatan saya menghitung tp, tn, fp, dan fn. Kemudian saya menghitung akurasi, ketepatan, daya ingat dan skor-F untuk setiap tes. Pertanyaan saya adalah, ketika saya ingin hasil rata-rata, saya mengambil rata-rata akurasi, tetapi dapatkah saya rata-rata presisi, mengingat dan F-skor juga? Atau apakah ini salah secara matematis? NB Dataset yang digunakan dalam setiap lipatan seimbang dalam hal jumlah instance per kelas.

Terima kasih.

classification cross-validation precision-recall Kalaji
sumber

Saya mengalami masalah yang sama tentang menghitung ukuran-F (rata-rata harmonis presisi dan penarikan kembali) menggunakan validasi silang. Dalam makalah ini mereka benar-benar menunjukkan bahwa menghitung ukuran-F pada set lengkap, dan bukan rata-rata, adalah metode yang kurang bias. Saya harap ini bisa membantu

papafe

@markusian Silakan tambahkan ini sebagai jawaban! Sejauh ini hal yang paling penting di halaman ini !!

drevicko

Jawaban:

The -score, dengan asumsi Anda menggunakan definisi biasa, sudah merupakan kombinasi dari presisi dan recall. Secara khusus, itu adalah rata-rata harmonik dari mereka. Dengan kata lain Ini dimaksudkan untuk menangkap 'keefektifan' sistem di mana pengguna menempatkan bobot yang sama pada presisi dan daya ingat. Ada ekstensi, yang disebut skor , yang memberi kali lebih banyak bobot untuk diingat daripada presisi. Hidup sisi lain, jika Anda bertanya apakah Anda dapat rata-rata 5 $F$

F_{1} = 2 \cdot \frac{precision \cdot recall}{precision + recall}

$F_1 = 2\cdot\frac{\textrm{precision} \cdot \textrm{recall}}{\textrm{precision} + \textrm{recall}}$

F_{β}

$F_\beta$

β

$\beta$

F_{β} = (1 + β^{2}) \frac{precision \cdot recall}{(β^{2} \cdot precision) + recall}

$F_\beta = (1+\beta^2) \frac{\textrm{precision} \cdot \textrm{recall}}{(\beta^2 \cdot\textrm{precision}) + \textrm{recall}}$

F

$F$ skor (satu dari setiap lipatan), maka jawabannya adalah ya. Bahkan, itulah cara khas untuk melaporkan kinerja sistem!

Perlu diketahui bahwa ada beberapa masalah dengan menggunakan nilai-nilai ini untuk membuat kesimpulan tentang kesalahan generalisasi pengklasifikasi. Misalnya, uji- antara skor untuk satu classifier dan skor untuk classifier lain akan terlalu optimis. $t$ $F$ $F$

Matt Krause
sumber

Ya, saya menggunakan formula pertama. Ini berarti bahwa rata-rata skor-F dari tes yang berbeda menghasilkan hasil yang mirip dengan rata-rata presisi dan daya ingat dan kemudian menghitung skor-F dari mereka. Saya mencoba ini pada hasil yang saya miliki dan itu hampir sama. Terima kasih.

Kalaji