Gagasan alternatif untuk aturan penilaian yang tepat, dan menggunakan aturan penilaian untuk mengevaluasi model

Sebuah aturan skoring adalah sarana mengevaluasi menebak sebuah agen dari probabilitas yang terkait dengan acara kategoris, diberi (kategoris) hasil dari acara tersebut. Bergantung pada tebakan dan hasil yang diamati, aturan pemberian skor memberi nilai pada agen (angka sebenarnya). Aturan penilaian seharusnya menetapkan skor sedemikian rupa sehingga, rata-rata, agen dengan skor terkecil membuat tebakan paling akurat. (Konvensi berbeda mengenai apakah aturan penilaian dibingkai dalam hal minimalisasi atau maksimalisasi. Di sini saya mengambil tampilan minimisasi.)

Properti penting dari aturan penilaian adalah apakah aturan penilaian yang tepat; yaitu, apakah mereka memberikan skor rata-rata paling rendah ketika agen menebak probabilitas sebenarnya (atau, dalam kerangka Bayesian yang subyektif, mereka memberikan skor rata-rata paling rendah, mengingat prior agen sendiri, ketika agen menggunakan tingkat kepercayaannya sendiri sebagai tebakannya). Dalam kasus peristiwa biner, kesalahan kuadrat dari 0 atau 1 (skor Brier) adalah aturan penilaian yang tepat sedangkan kesalahan absolut tidak. Mengapa? Nah, kriteria kelayakan didasarkan pada rata-rata, dan rata-rata adalah ukuran kecenderungan sentral yang meminimalkan jumlah perbedaan kuadrat, tetapi tidak perlu meminimalkan kesalahan absolut.

Garis pemikiran ini menunjukkan bahwa jika kita mengganti nilai rata-rata dalam definisi aturan penilaian yang tepat dengan beberapa fungsi statistik lainnya, seperti median, maka kita akan mendapatkan sejenis keluarga kaya dari aturan penilaian yang tepat. Tidaklah masuk akal membayangkan situasi di mana agen ingin meminimalkan skor mediannya daripada skor rata-rata. Sebenarnya, tampaknya tidak ada aturan penilaian median nontrivial yang tepat. Mempertimbangkan kasus peristiwa biner lagi, jika probabilitas sebenarnya kurang dari 1/2, maka skor median agen akan sama dengan skor apa pun yang diberikan kepada agen ketika acara tidak terjadi, terlepas dari peristiwa itu probabilitas tepat. Tahanan analog tampaknya terjadi jika kita mengganti mean dengan, katakanlah, mean geometrik.

Jadi, adakah pengertian bahwa agar teori aturan penilaian yang tepat berfungsi sebagaimana dimaksud, fungsi statistik harus menjadi rerata?

Saya menyadari ini adalah pertanyaan yang tidak jelas, dan jawaban terbaik kemungkinan adalah penjelasan mengapa pertanyaan itu tidak masuk akal, jadi inilah konteks di mana saya menemukan diri saya bertanya, untuk membantu Anda membuat saya bingung. Saya seorang psikolog pengambilan keputusan, dan saya sering mendapati diri saya ingin mengukur kinerja (baik kinerja prediktif, di bawah cross-validation, atau model fit post-hoc) dari model yang memunculkan kemungkinan apa yang akan dipilih orang dalam skenario keputusan biner. Diskusi di atas menyarankan saya harus menggunakan aturan penilaian yang tepat. Mengganggu, aturan penilaian yang tepat tidak pada skala yang sama dengan probabilitas. Saya menemukan diri saya ingin, misalnya, mengambil akar kuadrat dari kuadrat kesalahan rata-rata daripada hanya melihat rata-rata kuadrat kesalahan (yaitu, skor Brier rata-rata), tetapi dalam kasus satu percobaan, RMSE setara dengan kesalahan absolut, yang tidak tepat, jadi bukankah saya kemudian berpikir bahwa model yang kurang akurat lebih baik? Jelas saya tidak bisa begitu saja mengubah metode saya mengevaluasi aturan penilaian dari satu dalam hal sarana ke satu dalam hal, misalnya, median. Haruskah saya membiasakan diri dengan skala salah satu aturan penilaian yang tepat yang biasa, atau menggunakan statistik seperti deteksi sinyal seperti area di bawah kurva ROC atau d '?

Komplikasi tambahan adalah bahwa untuk satu penelitian saya mencari model bootstrap parametrik cocok, sesuai dengan Wagenmakers, Ratcliff, Gomez, dan Iverson (2004), yang berarti saya melihat plot kepadatan skor daripada skor individu. Maka semakin tidak jelas apakah saya harus khawatir tentang kelayakan atau tentang kriteria yang analog.

Sunting: lihat utas komentar ini di Reddit untuk diskusi lebih lanjut.

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Menilai model mimikri menggunakan bootstrap parametrik. Jurnal Psikologi Matematika, 48 , 28-50. doi: 10.1016 / j.jmp.2003.11.004

scales scoring-rules Kodiologis
sumber

Apakah saya benar bahwa Anda mengajukan dua pertanyaan: 1 - Dapatkah "layak" didefinisikan ulang dalam hal skor median, daripada skor yang diharapkan dari perkiraan yang diberikan? 2 - Apakah ada skor yang tepat untuk probabilitas yang ada pada skala probabilitas?

Fabian

(1) Saya cukup yakin jawaban untuk pertanyaan itu adalah "tidak"; apa yang saya tanyakan adalah apakah masuk akal untuk mendefinisikan kembali "tepat" dalam hal apa pun selain mean (yaitu, harapan). (2) Ya, itu pertanyaan yang saya inginkan jawabannya, tetapi karena jawabannya lagi mungkin "tidak", saya kira tindak lanjut saya adalah "Lalu apa aturan penilaian yang baik yang dapat ditafsirkan dengan cara yang berhubungan secara alami untuk probabilitas? "

Kodiologist

Tentang (1), makalah berikut ini tampaknya terkait dengan pertanyaan Anda: ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf Penulis melihat kasus di mana bunga tidak pada skor yang diharapkan, tetapi pada distribusi skor. Menariknya, mereka akhirnya meminimalkan skor yang diharapkan dari bentuk tertentu (lihat Proposisi 2.2 dan 3.1).

Fabian

Sayangnya, tampaknya makalah itu tentang perkiraan jenis yang sama dengan DV, yang bertentangan dengan kasus ini di mana saya bertanya tentang dugaan probabilitas suatu peristiwa daripada dugaan kejadian yang paling mungkin. Tebakannya adalah probabilitas sedangkan DV diwujudkan secara diskrit.

Kodiologist

Jawaban:

Bertentangan dengan apa yang Anda katakan tentang shenanigans mean geometrik, sebenarnya ada aturan penilaian yang tepat untuk mean geometrik.

Mean geometrik dari variabel acak $X$ adalah sama dengan $e^{E(\log X)}$ . Oleh karena itu meminimalkan rata-rata geometrik dari skor acak $S$ sesuai dengan meminimalkan rata-rata aritmatika dari skor acak $\log S$ . Jadi jika $f(\hat p)$ adalah aturan penilaian standar yang tepat (di mana $f(\hat p)$ adalah skor yang Anda dapatkan jika Anda memprediksi suatu probabilitas $\hat p$ dan peristiwa itu terjadi), lalu $g(\hat p) = \log f(\hat p)$ adalah aturan penilaian yang tepat untuk rata-rata geometrik.

Demikian pula dengan rata-rata harmonik dari $X$ adalah $E(X^{-1})^{-1}$ jadi $g(\hat p) = -f(\hat p)^{-1}$ adalah aturan penilaian harmonik yang tepat. (Tanda negatif ada di sana sehingga transformasi koordinat meningkat monoton.)

Ini bekerja untuk setiap kecenderungan sentral yang merupakan rata-rata aritmatika dalam ruang yang berubah secara monoton. Masalahnya adalah median tidak berfungsi seperti ini. Lebih umum, kecenderungan sentral dengan titik pemecahan nol tidak akan berfungsi, karena akan menjadi tidak sensitif terhadap perubahan probabilitas ketika $p$ kecil. Misalnya rentang interkuartil tidak akan berfungsi, karena jika $p < 0.25$ , maka kisaran interkuartil dari skor tidak bergantung pada $p$ (begitu juga $\hat p$ harus meminimalkan IQR untuk semua nilai $p$ kurang dari $0.25$ , yang buruk).

Dari atas kepala saya, saya tidak dapat memikirkan kecenderungan sentral dengan 0 titik pemecahan yang tidak dapat ditulis ulang sebagai transformasi monoton dari rata-rata aritmatika, tetapi itu mungkin karena saya tidak tahu cukup kalkulus variasional (tentu saja tidak cukup untuk membuktikan aku benar). Namun, jika saya benar, maka "pada dasarnya" itu benar

agar teori aturan pemberian skor yang tepat berfungsi sebagaimana dimaksud, fungsi statistik harus menjadi nilai tengah.

Satu komentar lain: Anda menyarankan menggunakan RMSE sebagai aturan penilaian, tetapi Anda tidak harus melakukannya karena bertepatan dengan kesalahan absolut ketika ada satu titik data. Ini sepertinya mencerminkan beberapa kebingungan. Anda selalu mengevaluasi aturan penilaian pada setiap prediksi individu. Kemudian jika Anda ingin meringkas skor, Anda dapat mengambil kecenderungan sentral skor setelahnya. Jadi memprediksi untuk mengoptimalkan RMSE selalu identik dengan mengoptimalkan kesalahan absolut.

Di sisi lain, Anda bisa melakukan sesuatu seperti mengambil akar kuadrat dari skor Brier rata-rata sebagai ringkasan Anda jika Anda ingin memiliki ringkasan skor yang berada di "unit probabilitas." Tetapi saya pikir akan lebih produktif jika Anda membiasakan diri dengan tolok ukur untuk skala skor Brier, karena itulah yang biasanya akan Anda lihat:

0 adalah prediktor yang sempurna;
0,25 berarti tidak ada kemampuan prediksi ( $\hat p = 0.5$ );
1 adalah anti-prediktor yang sempurna ( $\hat p = 1, p = 0$ atau $\hat p = 0, p = 1$ ).

Anda juga dapat membuat tolok ukur lain dengan menggunakan model yang sangat sederhana - misalnya, jika Anda mengabaikan semua info tentang acara dan hanya memprediksi tarif dasar $p$ , maka skor Brier Anda adalah $p(1-p)$ . Atau jika Anda memprediksi deret waktu, Anda dapat melihat seberapa baik rata-rata tertimbang dari beberapa peristiwa terakhir, dll.

Ben Kuhn
sumber

Terima kasih atas balasan bijaksana Anda. "kemudian

g (\hat{p}) = \log f (\hat{p})

$g(\hat p) = \log f(\hat p)$ adalah aturan penilaian yang tepat untuk mean geometrik "- Maksud Anda

e^{f (\hat{p})}

$e^{f(\hat p)}$ ? Lalu kita dapatkan

E [\log S_{2}] = E [\log e^{S}] = E [S]

$E[\log S_2] = E[\log e^S] = E[S]$ , yang memiliki meminimalkan yang sama

\hat{p}

$\hat p$ sebagai

e^{E (\log S_{2})}

$e^{E(\log S_2)}$ , seperti yang diinginkan.

Kodiologist

"Kamu selalu mengevaluasi aturan penilaian pada setiap prediksi individu. Lalu jika kamu ingin meringkas skor, kamu bisa mengambil kecenderungan sentral skor setelahnya." - Dalam praktiknya, tampaknya ada dua fase di mana kecenderungan sentral terlibat: (1) ketika menggabungkan skor agen tunggal di berbagai peristiwa (2) ketika mempertimbangkan kinerja jangka panjang agen. (2) menggunakan output dari (1). Orang mungkin sudah menduga, apriori, bahwa seseorang dapat menggunakan RMSE untuk (1) tetapi rata-rata untuk analisis mengenai (2).

Kodiologist

@Kodiologist: Terima kasih atas koreksinya! Melayani saya dengan benar untuk tidak menuliskannya terlebih dahulu.

Ben Kuhn

Re komentar kedua Anda: Saya pikir kebingungan mungkin antara menggunakan RMSE sebagai kecenderungan utama, dan menggunakan RMSE sebagai aturan penilaian. Sebagai aturan penilaian, RMSE identik dengan kesalahan absolut, karena skor dievaluasi berdasarkan prediksi-per-prediksi. Sebagai kecenderungan sentral, tidak apa-apa - lagi-lagi hanya rata-rata dalam ruang koordinat yang berubah secara monoton (selama fungsi penilaian positif). Tetapi menggunakan RMSE sebagai kecenderungan utama Anda (bukan aturan penilaian) tidak mengurangi masalah karena skor Anda tidak memiliki unit yang sama dengan probabilitas.

Ben Kuhn

@Kodiologist: apakah ini menjawab pertanyaan Anda? Beri tahu saya jika Anda masih bertanya-tanya!

Ben Kuhn

Anda harus kembali ke motivasi untuk aturan penilaian yang tepat, yang Anda nyatakan longgar sebagai "agen dengan skor paling rendah membuat tebakan paling akurat." Tepatnya, asal-usul aturan penilaian adalah untuk memperoleh probabilitas yang mencerminkan keyakinan sejati - seperti yang Anda nyatakan, seseorang tidak bisa melakukan lebih baik daripada menawarkan probabilitas yang sesuai dengan keyakinan mereka ketika ditawarkan aturan penilaian sebagai hadiah. Aturan penilaian telah digunakan untuk menentukan apa arti probabilitas tanpa merujuk pada batas sejumlah besar pengulangan.

Aturan pemberian skor seperti itu diperoleh dengan mengambil ekspektasi atas aturan tersebut, maka tampilan rata-rata dari sekumpulan prediksi. Jadi, ketika Anda bertanya harus, "fungsional statistik harus menjadi mean?" Anda benar-benar bertanya bagaimana kita dapat mengambil ekspektasi atas serangkaian skor dengan beberapa metode lain daripada penggunaan rata-rata konvensional?

Saya membaca kekhawatiran Anda bahwa "aturan penilaian yang tepat tidak pada skala yang sama dengan probabilitas" yang mungkin Anda ingin nyatakan seberapa baik atau buruk skor yang dihitung? Selain dari skor Brier, log perbedaan absolut antara probabilitas yang ditawarkan dan hasil 0,1 juga merupakan aturan penilaian yang tepat, tetapi itu mungkin tidak memberikan hasil yang lebih dapat ditafsirkan, terutama karena dapat menyimpang ke nilai ekstrim untuk kesalahan besar.

Terkubur dalam derivasi aturan penilaian adalah bahwa pembuat keputusan memiliki utilitas linier, maka harapan diambil alih aturan penilaian secara langsung, bukan atas utilitas hasil aturan penilaian. (Seseorang mungkin berisiko merugikan penyimpangan besar dari kebenaran, dan itu akan membiaskan probabilitas yang ditimbulkannya.) Mungkin Anda secara implisit memikirkan fungsi utilitas yang menyatakan seberapa baik atau buruk "probabilitas dari apa yang akan dipilih orang" daripada hanya probabilitas sendiri?

John Mark
sumber

Kembali menggunakan aturan penilaian untuk menentukan probabilitas: menarik, saya tidak tahu. Ya, mencari untuk menilai seberapa baik skor yang dihitung adalah masalah bagi saya. Skor logaritmik memberikan skor ekstrim untuk kesalahan besar: sepatutnya dicatat. Utilitas nonlinier: Anda mungkin benar, tetapi memutuskan fungsi utilitas sepertinya bisnis yang sangat rumit, terutama dalam riset dasar.

Kodiologist