PENDAHULUAN: Saya tidak peduli tentang manfaat menggunakan cutoff atau tidak, atau bagaimana seseorang harus memilih cutoff. Pertanyaan saya murni matematika dan karena rasa ingin tahu.
Regresi logistik memodelkan probabilitas bersyarat posterior kelas A versus kelas B dan cocok dengan hyperplane di mana probabilitas kondisional posterior sama. Jadi dalam teori, saya mengerti bahwa 0,5 poin klasifikasi akan meminimalkan kesalahan total terlepas dari keseimbangan yang ditetapkan, karena memodelkan probabilitas posterior (dengan asumsi Anda secara konsisten menemukan rasio kelas yang sama).
Dalam contoh kehidupan nyata saya, saya mendapatkan akurasi yang sangat buruk menggunakan P> 0,5 sebagai batas penggolongan saya (sekitar 51% akurasi). Namun, ketika saya melihat AUC itu di atas 0,99. Jadi saya melihat beberapa nilai cutoff yang berbeda dan menemukan bahwa P> 0,6 memberi saya akurasi 98% (90% untuk kelas yang lebih kecil dan 99% untuk kelas yang lebih besar) - hanya 2% dari kasus yang salah diklasifikasi.
Kelas-kelasnya sangat tidak seimbang (1: 9) dan ini adalah masalah dimensi tinggi. Namun, saya mengalokasikan kelas secara sama untuk setiap set lintas-validasi sehingga tidak boleh ada perbedaan antara keseimbangan kelas antara model fit dan kemudian prediksi. Saya juga mencoba menggunakan data yang sama dari model fit dan dalam prediksi dan masalah yang sama terjadi.
Saya tertarik pada alasan mengapa 0,5 tidak akan meminimalkan kesalahan, saya pikir ini akan dengan desain jika model sedang fit dengan meminimalkan kerugian lintas-entropi.
Adakah yang tahu mengapa hal ini terjadi? Apakah karena menambah hukuman, dapatkah seseorang menjelaskan apa yang terjadi jika demikian?
Jawaban:
Anda tidak harus mendapatkan kategori yang diprediksi dari model regresi logistik. Bisa saja tinggal dengan probabilitas diprediksi. Jika Anda mendapatkan kategori yang diprediksi, Anda tidak boleh menggunakan informasi itu untuk melakukan apa pun selain mengatakan 'pengamatan ini paling baik diklasifikasikan ke dalam kategori ini'. Misalnya, Anda tidak boleh menggunakan 'akurasi' / persen yang benar untuk memilih model.
sumber
Saya pikir, itu bisa karena beberapa alasan:
Jadi, Anda mungkin harus bermain-main dengan nilai cut-off, untuk memaksimalkan hasil yang Anda inginkan seperti presisi, akurasi dll. Karena sebagian besar populasi waktu tidak terlalu homogen.
sumber