Aturan penilaian yang tepat adalah aturan yang dimaksimalkan oleh model 'benar' dan itu tidak memungkinkan 'lindung nilai' atau bermain game sistem (sengaja melaporkan hasil yang berbeda seperti keyakinan sejati model untuk meningkatkan skor). Skor penghalang adalah tepat, akurasi (proporsi diklasifikasikan dengan benar) tidak tepat dan sering tidak dianjurkan. Terkadang saya melihat bahwa AUC disebut aturan penilaian semi-layak yang membuatnya tidak sepenuhnya palsu sebagai akurasi, tetapi kurang sensitif daripada aturan yang tepat (misalnya di sini /stats//a/90705/53084 ).
Apa arti dari aturan penilaian semi-layak? Apakah ini didefinisikan di suatu tempat?
Jawaban:
Mari kita mulai dengan sebuah contoh. Say Alice adalah pelatih lintasan dan ingin memilih seorang atlet untuk mewakili tim dalam acara olahraga yang akan datang, sprint 200m. Secara alami dia ingin memilih pelari tercepat.
Meskipun agak diremehkan, contoh di atas menunjukkan apa yang terjadi dengan penggunaan aturan penilaian. Alice memperkirakan waktu sprint yang diharapkan. Dalam konteks klasifikasi, kami memperkirakan probabilitas meminimalkan kesalahan klasifikasi probabilistik.
Seperti yang kita lihat aturan pemberian skor yang semi-benar tidak sempurna tetapi tidak sekaligus merupakan bencana besar. Ini bisa sangat berguna selama prediksi sebenarnya! Cagdas Ozgenc memiliki contoh yang bagus di sini di mana bekerja dengan aturan yang tidak patut / semi-tepat lebih disukai daripada aturan yang benar-benar tepat. Secara umum, istilah aturan penilaian semi-layak tidak terlalu umum. Ini terkait dengan aturan yang tidak tepat yang dapat sangat membantu (mis. AUC-ROC atau MAE dalam klasifikasi probabilistik).
Akhirnya, perhatikan sesuatu yang penting. Karena sprint dikaitkan dengan kaki yang kuat, maka klasifikasi probabilistik yang benar dengan Akurasi. Tidak mungkin sprinter yang baik akan memiliki kaki yang lemah dan juga tidak mungkin bahwa classifier yang baik akan memiliki Akurasi yang buruk. Namun demikian, menyamakan Akurasi dengan kinerja classifier yang baik seperti menyamakan kekuatan kaki dengan kinerja sprint yang baik. Tidak sepenuhnya tidak berdasar tetapi sangat masuk akal untuk mengarah pada hasil yang tidak masuk akal.
sumber