Misalkan saya sedang membangun classifier regresi logistik yang memprediksi apakah seseorang sudah menikah atau lajang. (1 = menikah, 0 = tunggal) Saya ingin memilih titik pada kurva presisi-ingat yang memberi saya setidaknya 75% presisi, jadi saya ingin memilih ambang dan , sehingga:
- Jika output dari classifier saya lebih besar dari , saya output "menikah".
- Jika output di bawah , saya output "tunggal".
- Jika output di antara keduanya, saya output "Saya tidak tahu".
Beberapa pertanyaan:
- Saya pikir di bawah definisi standar presisi, presisi akan mengukur ketepatan kelas menikah saja (yaitu, presisi = # kali saya benar memprediksi menikah / total # kali saya memprediksi menikah). Namun, apa yang benar-benar ingin saya lakukan adalah mengukur presisi keseluruhan (yaitu, total # kali saya memprediksi dengan benar menikah atau lajang / total # kali saya memprediksi menikah atau lajang). Apakah ini hal yang boleh dilakukan? Jika tidak, apa yang harus saya lakukan?
- Apakah ada cara untuk menghitung kurva presisi / recall "keseluruhan" ini dalam R (misalnya, menggunakan paket ROCR atau pustaka lain)? Saat ini saya menggunakan paket ROCR, tetapi tampaknya hanya memberi saya presisi / penarikan kelas tunggal.
sumber
Seperti yang dikatakan Robert dengan benar, Akurasi adalah jalan yang harus ditempuh. Saya hanya ingin menambahkan bahwa dimungkinkan untuk melakukan penghitungan dengan ROCR. Lihatlah bantuan (kinerja) untuk memilih ukuran yang berbeda.
Misalnya, dalam ROCR hanya satu ambang keputusan yang digunakan yang disebut cutoff . Kode berikut memplot akurasi vs cutoff dan mengekstrak cutoff untuk akurasi maksimum.
yang mengakibatkan
Untuk beroperasi dengan dua ambang batas untuk membuat wilayah tengah ketidakpastian (yang merupakan cara yang valid untuk pergi jika keadaan / aplikasi target memungkinkannya) seseorang dapat membuat dua objek kinerja dengan ROCR
Pilih cutoff yang sesuai dari vektor kinerja (menggunakan metode R yang) dan gabungkan mereka untuk mencapai keseimbangan yang diinginkan. Ini harus langsung, maka saya meninggalkannya sebagai latihan untuk pembaca.
Satu catatan terakhir: Apa perbedaan antara Akurasi dan ketepatan penghitungan untuk kedua kelas secara terpisah dan misalnya menggabungkannya dalam rata-rata (terbobot)?
Akurasi menghitung rata-rata tertimbang, di mana bobot untuk kelas c setara dengan jumlah instance dengan kelas c. Ini berarti bahwa jika Anda mengalami kemiringan kelas berat (misalnya 98% negatif) dapat dengan mudah "mengoptimalkan" akurasi dengan menetapkan prediksi label negatif untuk semua instance. Dalam kasus seperti itu, rata-rata polos non-tertimbang dari kedua precision kelas mencegah permainan metrik. Dalam kasus kelas yang seimbang, kedua metode perhitungan tentu saja menghasilkan hasil yang sama.
sumber