Merkle & Steyvers (2013) menulis:
Untuk secara formal mendefinisikan aturan penilaian yang tepat, misalkan menjadi ramalan probabilistik uji coba Bernoulli dengan probabilitas keberhasilan sejati . Aturan penilaian yang tepat adalah metrik yang nilainya diharapkan diminimalkan jika .
Saya mengerti bahwa ini bagus karena kami ingin mendorong para peramal untuk membuat ramalan yang dengan jujur mencerminkan kepercayaan mereka yang sebenarnya, dan tidak ingin memberi mereka insentif yang salah untuk melakukan sebaliknya.
Apakah ada contoh dunia nyata di mana layak untuk menggunakan aturan penilaian yang tidak tepat?
classification
forecasting
scoring-rules
user1205901 - Pasang kembali Monica
sumber
sumber
Jawaban:
Sangat tepat untuk menggunakan aturan penilaian yang tidak tepat ketika tujuannya sebenarnya adalah perkiraan, tetapi bukan inferensi. Saya tidak terlalu peduli apakah peramal lain curang atau tidak ketika saya yang akan melakukan ramalan.
Aturan penilaian yang tepat memastikan bahwa selama proses estimasi model mendekati proses pembuatan data yang sebenarnya (DGP). Ini kedengarannya menjanjikan karena ketika kita mendekati DGP yang sebenarnya, kita juga akan melakukan hal yang baik dalam hal perkiraan di bawah fungsi kerugian. Tangkapannya adalah sebagian besar waktu (sebenarnya dalam kenyataannya hampir selalu) ruang pencarian model kami tidak mengandung DGP yang sebenarnya. Kami akhirnya mendekati DGP yang sebenarnya dengan beberapa bentuk fungsional yang kami usulkan.
Dalam pengaturan yang lebih realistis ini, jika tugas perkiraan kami lebih mudah daripada mengetahui seluruh kepadatan DGP yang sebenarnya, kami sebenarnya dapat melakukan lebih baik. Ini terutama berlaku untuk klasifikasi. Misalnya DGP yang sebenarnya bisa sangat kompleks tetapi tugas klasifikasi bisa sangat mudah.
Yaroslav Bulatov memberikan contoh berikut di blognya:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Alih-alih mencocokkan kepadatan tepat di atas, kami mengusulkan model minyak mentah di bawah ini, yang cukup jauh dari DGP yang sebenarnya. Namun itu klasifikasi sempurna. Ini ditemukan dengan menggunakan kehilangan engsel, yang tidak tepat.
Di sisi lain jika Anda memutuskan untuk menemukan DGP yang benar dengan log-loss (yang tepat) maka Anda mulai memasang beberapa fungsional, karena Anda tidak tahu apa bentuk fungsional yang tepat yang Anda butuhkan apriori. Tetapi ketika Anda berusaha semakin keras untuk mencocokkannya, Anda mulai mengklasifikasikan hal-hal yang salah.
Perhatikan bahwa dalam kedua kasus kami menggunakan bentuk fungsional yang sama. Dalam kasus kerugian yang tidak tepat, fungsi itu merosot menjadi fungsi langkah yang pada gilirannya melakukan klasifikasi sempurna. Dalam kasus yang tepat ia mengamuk mencoba memuaskan setiap wilayah kepadatan.
Pada dasarnya kita tidak selalu perlu mencapai model yang benar untuk memiliki perkiraan yang akurat. Atau kadang-kadang kita tidak benar-benar perlu berbuat baik pada seluruh domain kepadatan, tetapi menjadi sangat baik hanya pada bagian tertentu saja.
sumber
Akurasi (yaitu, persen diklasifikasikan dengan benar) adalah aturan penilaian yang tidak tepat, sehingga dalam beberapa hal orang melakukannya sepanjang waktu.
Secara lebih umum, aturan penilaian apa pun yang memaksa prediksi ke dalam kategori yang ditentukan sebelumnya akan menjadi tidak tepat. Klasifikasi adalah kasus ekstrem dari ini (satu-satunya prakiraan yang diijinkan adalah 0% dan 100%), tetapi prakiraan cuaca mungkin juga sedikit tidak tepat - stasiun lokal saya sepertinya melaporkan kemungkinan hujan dalam interval 10 atau 20%, meskipun saya bertaruh model yang mendasarinya jauh lebih tepat.
Aturan penilaian yang tepat juga mengasumsikan bahwa peramal netral risiko. Ini sering tidak terjadi pada peramal manusia yang sebenarnya, yang biasanya merugikan risiko, dan beberapa aplikasi mungkin mendapat manfaat dari aturan penilaian yang mereproduksi bias itu. Misalnya, Anda mungkin memberi sedikit tambahan berat pada P (hujan) karena membawa payung tetapi tidak membutuhkannya jauh lebih baik daripada terjebak dalam hujan lebat.
sumber