Sebagai jawaban lain menyatakan dengan benar, probabilitas yang dilaporkan dari model seperti regresi logistik dan naif Bayes adalah perkiraan probabilitas kelas. Jika model itu benar, kemungkinan memang akan menjadi probabilitas klasifikasi yang benar.
Namun, sangat penting untuk memahami bahwa ini bisa menyesatkan karena modelnya diperkirakan dan karenanya bukan model yang benar. Setidaknya ada tiga masalah.
- Ketidakpastian estimasi.
- Model salah spesifikasi.
- Bias.
The ketidakpastian hanya fakta di mana-mana sekarang bahwa probabilitas hanya perkiraan. Interval kepercayaan dari estimasi probabilitas kelas dapat memberikan beberapa gagasan tentang ketidakpastian (probabilitas kelas, bukan klasifikasi).
Jika modelnya salah dan hadapi itu, itu adalah probabilitas kelas bisa sangat menyesatkan bahkan jika prediksi kelas baik. Regresi logistik dapat membuat probabilitas kelas salah untuk dua kelas yang cukup terpisah jika beberapa titik data sedikit ekstrim. Mungkin masih melakukan pekerjaan dengan baik dalam hal klasifikasi.--
Jika prosedur estimasi (sengaja) memberikan estimasi bias , probabilitas kelas salah. Ini adalah sesuatu yang saya lihat dengan metode regularisasi seperti laso dan ridge untuk regresi logistik. Sementara pilihan regularisasi yang divalidasi silang mengarah ke model dengan kinerja yang baik dalam hal klasifikasi, probabilitas kelas yang dihasilkan jelas diremehkan (terlalu dekat dengan 0,5) pada kasus uji. Ini tidak selalu buruk, tetapi penting untuk diperhatikan.