Kapan tepat menggunakan aturan penilaian yang tidak tepat?

27

Merkle & Steyvers (2013) menulis:

Untuk secara formal mendefinisikan aturan penilaian yang tepat, misalkan menjadi ramalan probabilistik uji coba Bernoulli dengan probabilitas keberhasilan sejati . Aturan penilaian yang tepat adalah metrik yang nilainya diharapkan diminimalkan jika .fdhalf=hal

Saya mengerti bahwa ini bagus karena kami ingin mendorong para peramal untuk membuat ramalan yang dengan jujur ​​mencerminkan kepercayaan mereka yang sebenarnya, dan tidak ingin memberi mereka insentif yang salah untuk melakukan sebaliknya.

Apakah ada contoh dunia nyata di mana layak untuk menggunakan aturan penilaian yang tidak tepat?

Referensi
Merkle, EC, & Steyvers, M. (2013). Memilih aturan penilaian yang sangat tepat. Analisis Keputusan, 10 (4), 292-304

user1205901 - Pasang kembali Monica
sumber
1
Saya pikir kolom pertama dari halaman terakhir Winkler & Jose "Aturan Pemberian Skor" (2010) yang dikutip oleh Merkle & Steyvers (2013) menawarkan jawaban. Yaitu, jika utilitas bukan merupakan transformasi afine dari skor (yang dapat dibenarkan oleh penghindaran risiko dan semacamnya), maksimalisasi utilitas yang diharapkan akan bertentangan dengan maksimalisasi skor yang diharapkan
Richard Hardy

Jawaban:

25

Sangat tepat untuk menggunakan aturan penilaian yang tidak tepat ketika tujuannya sebenarnya adalah perkiraan, tetapi bukan inferensi. Saya tidak terlalu peduli apakah peramal lain curang atau tidak ketika saya yang akan melakukan ramalan.

Aturan penilaian yang tepat memastikan bahwa selama proses estimasi model mendekati proses pembuatan data yang sebenarnya (DGP). Ini kedengarannya menjanjikan karena ketika kita mendekati DGP yang sebenarnya, kita juga akan melakukan hal yang baik dalam hal perkiraan di bawah fungsi kerugian. Tangkapannya adalah sebagian besar waktu (sebenarnya dalam kenyataannya hampir selalu) ruang pencarian model kami tidak mengandung DGP yang sebenarnya. Kami akhirnya mendekati DGP yang sebenarnya dengan beberapa bentuk fungsional yang kami usulkan.

Dalam pengaturan yang lebih realistis ini, jika tugas perkiraan kami lebih mudah daripada mengetahui seluruh kepadatan DGP yang sebenarnya, kami sebenarnya dapat melakukan lebih baik. Ini terutama berlaku untuk klasifikasi. Misalnya DGP yang sebenarnya bisa sangat kompleks tetapi tugas klasifikasi bisa sangat mudah.

Yaroslav Bulatov memberikan contoh berikut di blognya:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

x0x<0

masukkan deskripsi gambar di sini

Alih-alih mencocokkan kepadatan tepat di atas, kami mengusulkan model minyak mentah di bawah ini, yang cukup jauh dari DGP yang sebenarnya. Namun itu klasifikasi sempurna. Ini ditemukan dengan menggunakan kehilangan engsel, yang tidak tepat.

masukkan deskripsi gambar di sini

Di sisi lain jika Anda memutuskan untuk menemukan DGP yang benar dengan log-loss (yang tepat) maka Anda mulai memasang beberapa fungsional, karena Anda tidak tahu apa bentuk fungsional yang tepat yang Anda butuhkan apriori. Tetapi ketika Anda berusaha semakin keras untuk mencocokkannya, Anda mulai mengklasifikasikan hal-hal yang salah.

masukkan deskripsi gambar di sini

Perhatikan bahwa dalam kedua kasus kami menggunakan bentuk fungsional yang sama. Dalam kasus kerugian yang tidak tepat, fungsi itu merosot menjadi fungsi langkah yang pada gilirannya melakukan klasifikasi sempurna. Dalam kasus yang tepat ia mengamuk mencoba memuaskan setiap wilayah kepadatan.

Pada dasarnya kita tidak selalu perlu mencapai model yang benar untuk memiliki perkiraan yang akurat. Atau kadang-kadang kita tidak benar-benar perlu berbuat baik pada seluruh domain kepadatan, tetapi menjadi sangat baik hanya pada bagian tertentu saja.

Cagdas Ozgenc
sumber
13
Itu adalah contoh yang menarik, benar-benar beberapa bahan untuk dipikirkan.
Matthew Drury
7

Akurasi (yaitu, persen diklasifikasikan dengan benar) adalah aturan penilaian yang tidak tepat, sehingga dalam beberapa hal orang melakukannya sepanjang waktu.

Secara lebih umum, aturan penilaian apa pun yang memaksa prediksi ke dalam kategori yang ditentukan sebelumnya akan menjadi tidak tepat. Klasifikasi adalah kasus ekstrem dari ini (satu-satunya prakiraan yang diijinkan adalah 0% dan 100%), tetapi prakiraan cuaca mungkin juga sedikit tidak tepat - stasiun lokal saya sepertinya melaporkan kemungkinan hujan dalam interval 10 atau 20%, meskipun saya bertaruh model yang mendasarinya jauh lebih tepat.

Aturan penilaian yang tepat juga mengasumsikan bahwa peramal netral risiko. Ini sering tidak terjadi pada peramal manusia yang sebenarnya, yang biasanya merugikan risiko, dan beberapa aplikasi mungkin mendapat manfaat dari aturan penilaian yang mereproduksi bias itu. Misalnya, Anda mungkin memberi sedikit tambahan berat pada P (hujan) karena membawa payung tetapi tidak membutuhkannya jauh lebih baik daripada terjebak dalam hujan lebat.

Matt Krause
sumber
3
Saya rasa saya tidak mengerti paragraf ketiga Anda. Saya telah menulis jawaban yang sama di sepanjang baris yang kita mungkin ingin lebih berkonsentrasi pada mendapatkan kuantil kepadatan prediksi yang tinggi dengan benar, tetapi saya tidak melihat bagaimana fungsi kerugian seperti itu akan memotivasi kami untuk menggunakan aturan penilaian yang tidak tepat. Lagipula, kita masih paling termotivasi untuk memperkirakan distribusi yang benar di masa depan. Bisakah Anda menguraikan?
S. Kolassa - Reinstate Monica
1
Jika peramal memaksimalkan utilitas yang diharapkan (bukan nilai), maka aturan penilaian yang tepat mungkin tidak benar-benar tepat (misalnya, jika utilitas bukan fungsi linier dari skor). Namun, jika Anda tahu atau dapat memperkirakan fungsi utilitas, saya kira Anda bisa membuat aturan penilaian yang tepat yang dirancang khusus sebagai gantinya dengan menerapkan kebalikannya.
Matt Krause
3
Tetapi kepatutan atau tidak dari aturan penilaian tidak terkait dengan utilitas, hanya dengan distribusi yang diprediksi dan masa depan yang sebenarnya, jadi saya masih tidak memahami kalimat pertama dari komentar Anda, atau mengapa kami ingin menggunakan aturan penilaian yang tidak tepat . Namun, Anda mengingatkan saya pada sebuah makalah oleh Ehm at al, untuk muncul di JRSS-B , yang saya selipkan dalam menulis jawaban saya yang dibatalkan, tetapi ketika saya tidak menemukan sesuatu yang berguna untuk pertanyaan ini - membaca lebih dekat mungkin lebih bermanfaat.
S. Kolassa - Reinstate Monica
@StephanKolassa, mungkin kolom pertama dari halaman terakhir Winkler & Jose "Aturan Pemberian Skor" (2010) menjelaskannya?
Richard Hardy
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
gung - Reinstate Monica