Memilih di antara aturan penilaian yang tepat

22

Sebagian besar sumber daya pada aturan penilaian yang tepat menyebutkan sejumlah aturan penilaian yang berbeda seperti log-loss, Brier score atau spherical scoring. Namun, mereka sering tidak memberikan banyak panduan tentang perbedaan di antara mereka. (Bukti A: Wikipedia .)

Memilih model yang memaksimalkan skor logaritmik sesuai dengan memilih model maksimum-likelihood, yang sepertinya argumen yang bagus untuk menggunakan penilaian logaritmik. Apakah ada pembenaran serupa untuk Brier atau penilaian bola, atau aturan penilaian lainnya? Mengapa seseorang menggunakan salah satu dari ini daripada penilaian logaritmik?

Ben Kuhn
sumber
2
Beberapa petunjuk ada dalam nomenklatur. "Biaya fungsional" berasal dari optimasi atau rekayasa sistem kontrol yang optimal. Tidak ada yang "terbaik". Untuk memiliki "kebaikan" berarti Anda harus memiliki ukuran kebaikan. Ada jumlah tak terbatas keluarga ukuran kebaikan. Contoh sepele adalah: apa jalan terbaik? Jika Anda berbaris menuju eksekusi Anda - buatlah itu lama menyenangkan. Jika Anda pergi ke logam Fields Anda, buatlah yang terpendek. Keahlian sistem membantu Anda memilih ukuran kebaikan. Ketika Anda memiliki ukuran kebaikan, maka Anda dapat menemukan "yang terbaik".
EngrStudent
1
Anda mungkin tertarik dengan Merkle & Steyvers, "Memilih aturan penilaian yang tepat" (2013, Decision Analysis ) .
S. Kolassa - Reinstate Monica
1
Saya mengambil kebebasan mengedit judul untuk membuatnya lebih tepat / informatif. Jika saya salah menafsirkannya, maaf dan merasa bebas untuk mengembalikan kembali perubahan.
Richard Hardy

Jawaban:

18

Mengapa seseorang menggunakan salah satu dari ini daripada penilaian logaritmik?

Jadi idealnya, kami selalu membedakan pemasangan model dari membuat keputusan . Dalam metodologi Bayesian, penilaian model & seleksi harus selalu dilakukan dengan menggunakan kemungkinan marginal . Anda kemudian menggunakan model untuk membuat prediksi probabilistik, dan fungsi kerugian Anda memberi tahu Anda bagaimana untuk menindaklanjuti prediksi tersebut.

Sayangnya di dunia nyata, kinerja komputasi sering menentukan bahwa kita mengacaukan pemilihan model dan pengambilan keputusan dan karenanya menggunakan fungsi kerugian agar sesuai dengan model kami. Di sinilah subjektivitas dalam pemilihan model merayap masuk, karena Anda harus menebak berapa banyak jenis kesalahan akan dikenakan biaya. Contoh klasiknya adalah diagnostik untuk kanker: melebih-lebihkan kemungkinan seseorang terkena kanker tidak baik, tetapi meremehkannya jauh lebih buruk.

Selain itu, jika Anda mencari panduan tentang cara memilih aturan penilaian, Anda mungkin juga ingin mencari panduan tentang memilih fungsi kerugian atau mendesain fungsi utilitas, karena saya pikir literatur tentang kedua topik tersebut sangat banyak. lebih produktif.

Andy Jones
sumber
3
1) Apakah Anda mengatakan bahwa penilaian Brier pada dasarnya adalah "fungsi kehilangan dalam penyamaran" - yaitu, meskipun menyamar sebagai aturan penilaian / perbandingan fungsi utilitas-agnostik, itu sebenarnya digunakan karena orang-orang memiliki preferensi spesifik atas jenis kesalahan yang dibuat oleh model?
Ben Kuhn
2) Apakah Anda memiliki contoh pengaturan khusus di mana seseorang dapat memilih Brier atau penilaian bola daripada skor log (= kemungkinan marjinal, seperti yang saya mengerti) karena alasan-alasan itu?
Ben Kuhn
3) Mengapa ini berkinerja lebih baik untuk memanggang asumsi fungsi kerugian / utilitas Anda ke dalam model daripada menyesuaikan dengan kemungkinan marginal dan menggunakan fungsi kerugian / utilitas Anda saat benar-benar membuat keputusan? Sepertinya untuk algoritma pembelajaran yang ideal seharusnya tidak ada kesenjangan di antara ini.
Ben Kuhn
3
1) Yap. 2) Tidak secara pribadi, tidak. Aturan penilaian tidak "modis" dalam sedikit ML tempat saya bekerja. Setelah menyodok dengan cepat tentang Cendekia , tampaknya aturan tersebut agak ketinggalan zaman secara umum. Makalah ini sepertinya akan menarik bagimu. 3) Dengan kinerja saya maksudkan "kinerja komputasi", bukan "kinerja prediktif".
Andy Jones