Mengapa ukuran-F biasanya digunakan untuk tugas-tugas klasifikasi (diawasi), sedangkan indeks-G (atau indeks Fowlkes-Mallows) umumnya digunakan untuk tugas-tugas pengelompokan (tanpa pengawasan)?
Ukuran-F adalah rata-rata harmonik dari presisi dan daya ingat .
G-ukur (atau indeks Fowlkes-Mallows) adalah rata-rata geometris dari presisi dan daya ingat .
Di bawah ini adalah plot dari berbagai cara.
F1 (harmonik)
Geometris
Hitung
Alasan saya bertanya adalah bahwa saya perlu memutuskan rata-rata mana yang akan digunakan dalam tugas NLG, di mana saya mengukur BLEU dan ROUGE (di mana BLEU setara dengan presisi dan ROUGE untuk mengingat). Bagaimana saya harus menghitung rata-rata skor ini?
machine-learning
evaluation
scoring
metric
nlg
Bruno Lubascher
sumber
sumber
Jawaban:
Fı-score lebih disukai daripada akurasi klasifikasi sederhana untuk mengatasi masalah dataset tidak seimbang; jika hal yang Anda cari jarang terjadi maka penggolong naif selalu bisa mengatakan tidak dan tampaknya bekerja dengan sangat baik! Varian pada FI adalah Fß, di mana
Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]
Variasikan ß untuk menyeimbangkan ketepatan dan daya ingat. Mengenai mengapa F atau G, saya percaya itu bersifat empiris - Anda tidak mengatakan apakah Anda mengklasifikasikan atau mengelompokkan dalam aplikasi Anda sendiri?
sumber
Jika Precision dan Recall serupa, F1 adalah ukuran tunggal yang baik untuk membandingkan model yang berbeda.
Pendek dan manis :)
sumber