Saya memiliki data 2-kelas berlabel di mana saya melakukan klasifikasi menggunakan beberapa pengklasifikasi. Dan datasetnya seimbang. Ketika menilai kinerja pengklasifikasi, saya perlu mempertimbangkan seberapa akurat pengklasifikasi dalam menentukan tidak hanya positif sejati, tetapi juga negatif sebenarnya. Oleh karena itu, jika saya menggunakan akurasi, dan jika pengklasifikasi cenderung positif dan mengklasifikasikan semuanya sebagai positif, saya akan mendapatkan akurasi sekitar 50%, meskipun gagal mengklasifikasikan negatif yang sebenarnya. Properti ini diperluas hingga presisi dan mengingat karena mereka fokus hanya pada satu kelas, dan pada gilirannya ke skor F1. (Inilah yang saya pahami bahkan dari makalah ini misalnya " Melampaui Akurasi, F-score dan ROC: Keluarga Tindakan Diskriminan untuk Evaluasi Kinerja ").
Oleh karena itu, saya dapat menggunakan sensitivitas dan spesifisitas (TPR dan TNR) untuk melihat bagaimana classifier dilakukan untuk setiap kelas, di mana saya bertujuan untuk memaksimalkan nilai-nilai ini.
Pertanyaan saya adalah saya mencari ukuran yang menggabungkan kedua nilai ini menjadi satu ukuran yang berarti . Saya melihat langkah-langkah yang disediakan dalam makalah itu, tetapi ternyata tidak sepele. Dan berdasarkan pemahaman saya, saya bertanya-tanya mengapa kita tidak bisa menerapkan sesuatu seperti F-score, tetapi alih-alih menggunakan presisi dan daya ingat saya akan menggunakan sensitivitas dan spesifisitas? Jadi rumusnya adalah dan tujuan saya adalah memaksimalkan ukuran ini. Saya merasa sangat representatif. Apakah sudah ada formula serupa? Dan apakah ini masuk akal atau bahkan secara matematis terdengar?
Keakuratan klasifikasi, sensitivitas, spesifisitas, dan kombinasi sederhana semuanya adalah aturan penilaian yang tidak tepat. Artinya, mereka dioptimalkan oleh model palsu. Menggunakannya akan membuat Anda memilih fitur yang salah, memberikan bobot yang salah, dan membuat keputusan yang kurang optimal. Salah satu dari banyak cara keputusan yang suboptimal adalah kepercayaan salah yang Anda dapatkan ketika probabilitas diprediksi mendekati ambang batas yang tersirat oleh penggunaan langkah-langkah ini. Singkatnya, segala sesuatu yang salah tidak salah dengan langkah-langkah ini. Menggunakannya untuk membandingkan bahkan dua model yang cocok akan menyesatkan Anda.
sumber