Saya ingin tahu bagaimana menafsirkan perbedaan nilai-nilai f-ukur. Saya tahu bahwa ukuran-f adalah rata-rata yang seimbang antara presisi dan daya ingat, tetapi saya bertanya tentang arti praktis dari perbedaan dalam ukuran-F.
Sebagai contoh, jika classifier C1 memiliki akurasi 0,4 dan classifier C2 lainnya akurasi 0,8, maka kita dapat mengatakan bahwa C2 telah dengan benar mengklasifikasikan dua contoh uji dibandingkan dengan C1. Namun, jika classifier C1 memiliki ukuran-F 0,4 untuk kelas tertentu dan classifier lain C2 ukuran-F 0,8, apa yang bisa kita nyatakan tentang perbedaan kinerja 2 pengklasifikasi? Bisakah kita mengatakan bahwa C2 telah mengklasifikasikan X lebih banyak instance dengan benar C1?
Jawaban:
Saya tidak bisa memikirkan makna intuitif ukuran F, karena itu hanya metrik gabungan. Yang lebih intuitif daripada F-mesure, tentu saja, adalah ketepatan dan daya ingat.
Tetapi menggunakan dua nilai, kita sering tidak dapat menentukan apakah satu algoritma lebih unggul dari yang lain. Misalnya, jika satu algoritma memiliki presisi yang lebih tinggi tetapi daya ingat yang lebih rendah dari yang lain, bagaimana Anda bisa tahu algoritma mana yang lebih baik?
Jika Anda memiliki tujuan spesifik dalam pikiran Anda seperti 'Presisi adalah raja. Saya tidak terlalu peduli dengan ingatan ', maka tidak ada masalah. Presisi yang lebih tinggi lebih baik. Tetapi jika Anda tidak memiliki tujuan yang kuat, Anda akan menginginkan metrik gabungan. Itu ukuran-F. Dengan menggunakannya, Anda akan membandingkan beberapa presisi dan sebagian daya ingat.
Kurva ROC sering digambarkan menyatakan ukuran-F. Anda mungkin menemukan artikel ini menarik karena memuat penjelasan tentang beberapa langkah termasuk kurva ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
sumber
Pentingnya skor F1 berbeda berdasarkan skenario. Mari kita asumsikan variabel target adalah label biner.
sumber
Ukuran-F memiliki makna yang intuitif. Ini memberi tahu Anda seberapa tepat classifier Anda (berapa banyak instance yang mengklasifikasikan dengan benar), serta seberapa kuatnya (itu tidak melewatkan sejumlah besar instance).
Dengan presisi tinggi tetapi daya ingat rendah, Anda classifier sangat akurat, tetapi melewatkan banyak contoh yang sulit untuk diklasifikasikan. Ini tidak terlalu berguna.
Lihatlah histogram ini. Abaikan tujuan aslinya.
Ke arah kanan, Anda mendapatkan presisi tinggi, tetapi daya ingat rendah. Jika saya hanya memilih instance dengan skor di atas 0,9, instance yang diklasifikasikan saya akan sangat tepat, namun saya akan melewatkan sejumlah besar instance. Eksperimen menunjukkan bahwa sweet spot di sini adalah sekitar 0,76, di mana ukuran-F adalah 0,87.
sumber
Ukuran-F adalah rata-rata harmonis dari presisi dan daya ingat Anda. Dalam sebagian besar situasi, Anda memiliki trade-off antara presisi dan daya ingat. Jika Anda mengoptimalkan penggolong Anda untuk meningkatkan satu dan tidak menyukai yang lain, rata-rata harmonik dengan cepat berkurang. Namun yang terbaik adalah ketika presisi dan daya ingat sama.
Diberi ukuran-F 0,4 dan 0,8 untuk pengklasifikasi Anda, Anda dapat mengharapkan bahwa ini adalah nilai maksimum yang dicapai saat menimbang presisi terhadap penarikan.
Untuk referensi visual, lihat gambar ini dari Wikipedia :
Ukuran-F adalah H , A dan B adalah daya ingat dan presisi. Anda bisa menambah satu, tetapi yang lain berkurang.
sumber
Rumus untuk ukuran-F (F1, dengan beta = 1) sama dengan rumus yang memberikan resistensi setara yang terdiri dari dua resistensi yang ditempatkan secara paralel dalam fisika (melupakan faktor 2).
Ini bisa memberi Anda kemungkinan interpretasi, dan Anda bisa memikirkan resistensi elektronik atau termal. Analogi ini akan mendefinisikan ukuran-F sebagai resistansi setara yang dibentuk oleh sensitivitas dan presisi yang ditempatkan secara paralel.
Untuk ukuran-F, kemungkinan maksimum adalah 1, dan Anda kehilangan resistensi segera setelah satu di antara dia dua kehilangan juga (yang juga mengatakan, dapatkan nilai di bawah 1). Jika Anda ingin lebih memahami kuantitas dan dinamika ini, pikirkan tentang fenomena fisiknya. Misalnya, tampak bahwa F-ukur <= maks (sensitivitas, presisi).
sumber
sumber
sumber
Arti intuitif terdekat dari skor f1 sedang dipersepsikan sebagai rata-rata dari recall dan presisi. Mari kita bersihkan untuk Anda:
Dalam tugas klasifikasi, Anda mungkin berencana untuk membangun classifier dengan presisi tinggi DAN recall. Misalnya, sebuah classifier yang memberi tahu apakah seseorang jujur atau tidak.
Untuk ketepatan, Anda biasanya dapat mengetahui secara akurat berapa banyak orang jujur di luar sana dalam kelompok tertentu. Dalam hal ini, ketika memperhatikan presisi tinggi, Anda berasumsi bahwa Anda dapat salah mengklasifikasikan pembohong sebagai orang jujur tetapi tidak sering. Dengan kata lain, di sini Anda mencoba mengidentifikasi pembohong dari jujur sebagai satu kelompok.
Namun, untuk diingat, Anda akan benar-benar khawatir jika Anda berpikir orang pembohong jujur. Bagi Anda, ini akan menjadi kerugian besar dan kesalahan besar dan Anda tidak ingin melakukannya lagi. Juga, tidak apa-apa jika Anda mengklasifikasikan seseorang jujur sebagai pembohong, tetapi model Anda tidak boleh (atau sebagian besar tidak) mengklaim pembohong sebagai jujur. Dengan kata lain, di sini Anda berfokus pada kelas tertentu dan Anda berusaha untuk tidak membuat kesalahan tentang itu.
Sekarang, mari kita ambil kasus di mana Anda ingin model Anda (1) secara tepat mengidentifikasi jujur dari pembohong (presisi) (2) mengidentifikasi setiap orang dari kedua kelas (ingat). Yang berarti Anda akan memilih model yang akan berkinerja baik di kedua metrik.
Keputusan pemilihan model Anda kemudian akan mencoba mengevaluasi setiap model berdasarkan rata-rata dari dua metrik. F-Score adalah yang terbaik yang dapat menggambarkan ini. Mari kita lihat rumusnya:
Ingat: p = tp / (tp + fp)
Ingat: r = tp / (tp + fn)
F-score: fscore = 2 / (1 / r + 1 / p)
Seperti yang Anda lihat, semakin tinggi daya ingat DAN presisi, semakin tinggi skor-F.
sumber
Mengetahui bahwa skor F1 adalah rata-rata harmonis dari presisi dan daya ingat, di bawah ini adalah sedikit singkat tentang mereka.
Saya akan mengatakan Recall lebih banyak tentang negatif palsu. Yaitu, Memiliki Recall yang lebih tinggi berarti ada lebih sedikit NEGATIF SALAH .
Sebanyak lebih sedikit FN atau Zero FN berarti, prediksi model Anda benar-benar baik.
Sama di sini, Kurang atau Nol Positif Palsu berarti prediksi Model benar-benar baik.
sumber