Mengapa ukuran-F lebih disukai untuk tugas klasifikasi?

8

Mengapa ukuran-F biasanya digunakan untuk tugas-tugas klasifikasi (diawasi), sedangkan indeks-G (atau indeks Fowlkes-Mallows) umumnya digunakan untuk tugas-tugas pengelompokan (tanpa pengawasan)?

Ukuran-F adalah rata-rata harmonik dari presisi dan daya ingat .

G-ukur (atau indeks Fowlkes-Mallows) adalah rata-rata geometris dari presisi dan daya ingat .

Di bawah ini adalah plot dari berbagai cara.

masukkan deskripsi gambar di sini

F1 (harmonik) =2halrecsayassayaHainrecSebuahllhalrecsayassayaHain+recSebuahll

Geometris =halrecsayassayaHainrecSebuahll

Hitung =halrecsayassayaHain+recSebuahll2

Alasan saya bertanya adalah bahwa saya perlu memutuskan rata-rata mana yang akan digunakan dalam tugas NLG, di mana saya mengukur BLEU dan ROUGE (di mana BLEU setara dengan presisi dan ROUGE untuk mengingat). Bagaimana saya harus menghitung rata-rata skor ini?

Bruno Lubascher
sumber
Mungkin hanya bagaimana pembelotan berlangsung!
Aditya
1
@Aditya, Anda benar, itu hanya pertanyaan yang dirumuskan dengan buruk tentang definisi. Saya mengeditnya dengan merumuskan kembali menjadi sesuatu yang lebih konkret.
Bruno Lubascher

Jawaban:

3

Fı-score lebih disukai daripada akurasi klasifikasi sederhana untuk mengatasi masalah dataset tidak seimbang; jika hal yang Anda cari jarang terjadi maka penggolong naif selalu bisa mengatakan tidak dan tampaknya bekerja dengan sangat baik! Varian pada FI adalah Fß, di mana

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Variasikan ß untuk menyeimbangkan ketepatan dan daya ingat. Mengenai mengapa F atau G, saya percaya itu bersifat empiris - Anda tidak mengatakan apakah Anda mengklasifikasikan atau mengelompokkan dalam aplikasi Anda sendiri?

Gayus
sumber
1
Terima kasih atas jawabannya, tetapi saya pikir Anda tidak mengerti pertanyaan saya. Saya tidak bermaksud membandingkan akurasi F1 vs sederhana. , sebaliknya, saya maksud untuk membandingkan Harmonic vs Geometris vs Aritmatika berarti . Saya tidak melakukan klasifikasi tradisional atau clustering, saya punya tugas NLG , yang diukur dalam BLEU dan ROUGE yang bisa dirata-rata dengan salah satu cara, tetapi saya tidak yakin mana yang harus dipilih.
Bruno Lubascher
-1

Jika Precision dan Recall serupa, F1 adalah ukuran tunggal yang baik untuk membandingkan model yang berbeda.

Pendek dan manis :)

FrancoSwiss
sumber
Saya tidak mengerti bagaimana Anda bahkan mencoba menjawab pertanyaan saya ...
Bruno Lubascher