Bagaimana cara menginterpretasikan nilai ukuran-F?

41

Saya ingin tahu bagaimana menafsirkan perbedaan nilai-nilai f-ukur. Saya tahu bahwa ukuran-f adalah rata-rata yang seimbang antara presisi dan daya ingat, tetapi saya bertanya tentang arti praktis dari perbedaan dalam ukuran-F.

Sebagai contoh, jika classifier C1 memiliki akurasi 0,4 dan classifier C2 lainnya akurasi 0,8, maka kita dapat mengatakan bahwa C2 telah dengan benar mengklasifikasikan dua contoh uji dibandingkan dengan C1. Namun, jika classifier C1 memiliki ukuran-F 0,4 untuk kelas tertentu dan classifier lain C2 ukuran-F 0,8, apa yang bisa kita nyatakan tentang perbedaan kinerja 2 pengklasifikasi? Bisakah kita mengatakan bahwa C2 telah mengklasifikasikan X lebih banyak instance dengan benar C1?

AM2
sumber
2
Saya tidak yakin Anda bisa mengatakan banyak karena ukuran-F adalah fungsi presisi dan penarikan: en.wikipedia.org/wiki/F1_score . Anda dapat melakukan perhitungan matematika dan menahan satu (baik presisi atau mengingat) konstan dan mengatakan sesuatu tentang yang lain.
Nick

Jawaban:

41

Saya tidak bisa memikirkan makna intuitif ukuran F, karena itu hanya metrik gabungan. Yang lebih intuitif daripada F-mesure, tentu saja, adalah ketepatan dan daya ingat.

Tetapi menggunakan dua nilai, kita sering tidak dapat menentukan apakah satu algoritma lebih unggul dari yang lain. Misalnya, jika satu algoritma memiliki presisi yang lebih tinggi tetapi daya ingat yang lebih rendah dari yang lain, bagaimana Anda bisa tahu algoritma mana yang lebih baik?

Jika Anda memiliki tujuan spesifik dalam pikiran Anda seperti 'Presisi adalah raja. Saya tidak terlalu peduli dengan ingatan ', maka tidak ada masalah. Presisi yang lebih tinggi lebih baik. Tetapi jika Anda tidak memiliki tujuan yang kuat, Anda akan menginginkan metrik gabungan. Itu ukuran-F. Dengan menggunakannya, Anda akan membandingkan beberapa presisi dan sebagian daya ingat.

Kurva ROC sering digambarkan menyatakan ukuran-F. Anda mungkin menemukan artikel ini menarik karena memuat penjelasan tentang beberapa langkah termasuk kurva ROC: http://binf.gmu.edu/mmasso/ROC101.pdf

Minkoo Seo
sumber
23

Pentingnya skor F1 berbeda berdasarkan skenario. Mari kita asumsikan variabel target adalah label biner.

  • Kelas berimbang: Dalam situasi ini, skor F1 dapat diabaikan secara efektif, tingkat kesalahan klasifikasi adalah kuncinya.
  • Kelas tidak seimbang, tetapi kedua kelas itu penting: Jika distribusi kelas sangat miring (seperti 80:20 atau 90:10), maka classifier bisa mendapatkan tingkat kesalahan klasifikasi yang rendah hanya dengan memilih kelas mayoritas. Dalam situasi seperti itu, saya akan memilih classifier yang mendapat skor F1 tinggi di kedua kelas, serta tingkat kesalahan klasifikasi yang rendah. Klasifikasi yang mendapat skor F1 rendah harus diabaikan.
  • Kelas tidak seimbang, tetapi satu kelas jika lebih penting dari yang lain. Misalnya, dalam deteksi Fraud, lebih penting memberi label dengan benar sebagai penipuan, dan bukan memberi label pada yang tidak curang. Dalam hal ini, saya akan memilih classifier yang memiliki skor F1 baik hanya di kelas penting . Ingatlah bahwa skor-F1 tersedia per kelas.
shark8me
sumber
9

Ukuran-F memiliki makna yang intuitif. Ini memberi tahu Anda seberapa tepat classifier Anda (berapa banyak instance yang mengklasifikasikan dengan benar), serta seberapa kuatnya (itu tidak melewatkan sejumlah besar instance).

Dengan presisi tinggi tetapi daya ingat rendah, Anda classifier sangat akurat, tetapi melewatkan banyak contoh yang sulit untuk diklasifikasikan. Ini tidak terlalu berguna.

Lihatlah histogram ini. masukkan deskripsi gambar di siniAbaikan tujuan aslinya.

Ke arah kanan, Anda mendapatkan presisi tinggi, tetapi daya ingat rendah. Jika saya hanya memilih instance dengan skor di atas 0,9, instance yang diklasifikasikan saya akan sangat tepat, namun saya akan melewatkan sejumlah besar instance. Eksperimen menunjukkan bahwa sweet spot di sini adalah sekitar 0,76, di mana ukuran-F adalah 0,87.

hilang29
sumber
5

Ukuran-F adalah rata-rata harmonis dari presisi dan daya ingat Anda. Dalam sebagian besar situasi, Anda memiliki trade-off antara presisi dan daya ingat. Jika Anda mengoptimalkan penggolong Anda untuk meningkatkan satu dan tidak menyukai yang lain, rata-rata harmonik dengan cepat berkurang. Namun yang terbaik adalah ketika presisi dan daya ingat sama.

Diberi ukuran-F 0,4 dan 0,8 untuk pengklasifikasi Anda, Anda dapat mengharapkan bahwa ini adalah nilai maksimum yang dicapai saat menimbang presisi terhadap penarikan.

Untuk referensi visual, lihat gambar ini dari Wikipedia :

masukkan deskripsi gambar di sini

Ukuran-F adalah H , A dan B adalah daya ingat dan presisi. Anda bisa menambah satu, tetapi yang lain berkurang.

Willi Raschkowski
sumber
Saya menemukan visualisasi "Crossed Ladders" sedikit lebih mudah - bagi saya, itu membuat persamaan A = B menghasilkan H terbesar yang lebih intuitif
Coruscate5
3

Rumus untuk ukuran-F (F1, dengan beta = 1) sama dengan rumus yang memberikan resistensi setara yang terdiri dari dua resistensi yang ditempatkan secara paralel dalam fisika (melupakan faktor 2).

Ini bisa memberi Anda kemungkinan interpretasi, dan Anda bisa memikirkan resistensi elektronik atau termal. Analogi ini akan mendefinisikan ukuran-F sebagai resistansi setara yang dibentuk oleh sensitivitas dan presisi yang ditempatkan secara paralel.

Untuk ukuran-F, kemungkinan maksimum adalah 1, dan Anda kehilangan resistensi segera setelah satu di antara dia dua kehilangan juga (yang juga mengatakan, dapatkan nilai di bawah 1). Jika Anda ingin lebih memahami kuantitas dan dinamika ini, pikirkan tentang fenomena fisiknya. Misalnya, tampak bahwa F-ukur <= maks (sensitivitas, presisi).

Bardamu
sumber
3

Fβ-1/β2

P=TPTP+FP
R=TPTP+FN
α
α1-RR+1-PP.
-αFββ2
William G. Dearden
sumber
1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/hal)
β2<1halFβ
LittleYUYU
sumber
0

Arti intuitif terdekat dari skor f1 sedang dipersepsikan sebagai rata-rata dari recall dan presisi. Mari kita bersihkan untuk Anda:

Dalam tugas klasifikasi, Anda mungkin berencana untuk membangun classifier dengan presisi tinggi DAN recall. Misalnya, sebuah classifier yang memberi tahu apakah seseorang jujur ​​atau tidak.

Untuk ketepatan, Anda biasanya dapat mengetahui secara akurat berapa banyak orang jujur ​​di luar sana dalam kelompok tertentu. Dalam hal ini, ketika memperhatikan presisi tinggi, Anda berasumsi bahwa Anda dapat salah mengklasifikasikan pembohong sebagai orang jujur ​​tetapi tidak sering. Dengan kata lain, di sini Anda mencoba mengidentifikasi pembohong dari jujur ​​sebagai satu kelompok.

Namun, untuk diingat, Anda akan benar-benar khawatir jika Anda berpikir orang pembohong jujur. Bagi Anda, ini akan menjadi kerugian besar dan kesalahan besar dan Anda tidak ingin melakukannya lagi. Juga, tidak apa-apa jika Anda mengklasifikasikan seseorang jujur ​​sebagai pembohong, tetapi model Anda tidak boleh (atau sebagian besar tidak) mengklaim pembohong sebagai jujur. Dengan kata lain, di sini Anda berfokus pada kelas tertentu dan Anda berusaha untuk tidak membuat kesalahan tentang itu.

Sekarang, mari kita ambil kasus di mana Anda ingin model Anda (1) secara tepat mengidentifikasi jujur ​​dari pembohong (presisi) (2) mengidentifikasi setiap orang dari kedua kelas (ingat). Yang berarti Anda akan memilih model yang akan berkinerja baik di kedua metrik.

Keputusan pemilihan model Anda kemudian akan mencoba mengevaluasi setiap model berdasarkan rata-rata dari dua metrik. F-Score adalah yang terbaik yang dapat menggambarkan ini. Mari kita lihat rumusnya:

Ingat: p = tp / (tp + fp)

Ingat: r = tp / (tp + fn)

F-score: fscore = 2 / (1 / r + 1 / p)

Seperti yang Anda lihat, semakin tinggi daya ingat DAN presisi, semakin tinggi skor-F.

Cs20
sumber
0

Mengetahui bahwa skor F1 adalah rata-rata harmonis dari presisi dan daya ingat, di bawah ini adalah sedikit singkat tentang mereka.

Saya akan mengatakan Recall lebih banyak tentang negatif palsu. Yaitu, Memiliki Recall yang lebih tinggi berarti ada lebih sedikit NEGATIF ​​SALAH .

Penarikan=thalthal+fn

Sebanyak lebih sedikit FN atau Zero FN berarti, prediksi model Anda benar-benar baik.

Presisi=thalthal+fhal

Sama di sini, Kurang atau Nol Positif Palsu berarti prediksi Model benar-benar baik.

Anroop
sumber