Pendekatan khas untuk memecahkan masalah klasifikasi adalah mengidentifikasi kelas model kandidat, dan kemudian melakukan pemilihan model menggunakan beberapa prosedur seperti validasi silang. Biasanya seseorang memilih model dengan akurasi tertinggi, atau beberapa fungsi terkait yang menyandikan informasi spesifik masalah, seperti .
Dengan asumsi tujuan akhir adalah untuk menghasilkan classifier yang akurat (di mana definisi akurasi lagi, tergantung masalah), dalam situasi apa lebih baik melakukan pemilihan model menggunakan aturan penilaian yang tepat sebagai lawan dari sesuatu yang tidak tepat, seperti akurasi, presisi, penarikan kembali , dll? Lebih jauh, mari kita abaikan masalah kompleksitas model dan anggap apriori kita anggap semua model sama-sama berpeluang.
Sebelumnya saya akan mengatakan tidak pernah. Kita tahu, dalam pengertian formal, klasifikasi adalah masalah yang lebih mudah daripada regresi [1], [2] dan kita dapat memperoleh batasan yang lebih ketat untuk yang pertama daripada yang belakangan ( ). Selain itu, ada beberapa kasus ketika mencoba untuk mencocokkan probabilitas secara akurat dapat menghasilkan batas keputusan yang salah atau overfitting . Namun, berdasarkan percakapan di sini dan pola pemungutan suara masyarakat sehubungan dengan masalah tersebut, saya telah mempertanyakan pandangan ini.
- Devroye, Luc. Teori probabilistik pengenalan pola. Vol. 31. springer, 1996., Bagian 6.7
- Kearns, Michael J., dan Robert E. Schapire. Pembelajaran bebas distribusi yang efisien dari konsep-konsep probabilistik. Yayasan Ilmu Komputer, 1990. Prosiding., Simposium Tahunan ke-31 pada. IEEE, 1990.
Pernyataan ini mungkin sedikit ceroboh. Secara khusus saya maksudkan bahwa diberi data berlabel dari bentuk dengan dan , tampaknya lebih mudah untuk memperkirakan batas keputusan daripada secara akurat memperkirakan probabilitas bersyarat.