Sebuah aturan skoring adalah sarana mengevaluasi menebak sebuah agen dari probabilitas yang terkait dengan acara kategoris, diberi (kategoris) hasil dari acara tersebut. Bergantung pada tebakan dan hasil yang diamati, aturan pemberian skor memberi nilai pada agen (angka sebenarnya). Aturan penilaian seharusnya menetapkan skor sedemikian rupa sehingga, rata-rata, agen dengan skor terkecil membuat tebakan paling akurat. (Konvensi berbeda mengenai apakah aturan penilaian dibingkai dalam hal minimalisasi atau maksimalisasi. Di sini saya mengambil tampilan minimisasi.)
Properti penting dari aturan penilaian adalah apakah aturan penilaian yang tepat; yaitu, apakah mereka memberikan skor rata-rata paling rendah ketika agen menebak probabilitas sebenarnya (atau, dalam kerangka Bayesian yang subyektif, mereka memberikan skor rata-rata paling rendah, mengingat prior agen sendiri, ketika agen menggunakan tingkat kepercayaannya sendiri sebagai tebakannya). Dalam kasus peristiwa biner, kesalahan kuadrat dari 0 atau 1 (skor Brier) adalah aturan penilaian yang tepat sedangkan kesalahan absolut tidak. Mengapa? Nah, kriteria kelayakan didasarkan pada rata-rata, dan rata-rata adalah ukuran kecenderungan sentral yang meminimalkan jumlah perbedaan kuadrat, tetapi tidak perlu meminimalkan kesalahan absolut.
Garis pemikiran ini menunjukkan bahwa jika kita mengganti nilai rata-rata dalam definisi aturan penilaian yang tepat dengan beberapa fungsi statistik lainnya, seperti median, maka kita akan mendapatkan sejenis keluarga kaya dari aturan penilaian yang tepat. Tidaklah masuk akal membayangkan situasi di mana agen ingin meminimalkan skor mediannya daripada skor rata-rata. Sebenarnya, tampaknya tidak ada aturan penilaian median nontrivial yang tepat. Mempertimbangkan kasus peristiwa biner lagi, jika probabilitas sebenarnya kurang dari 1/2, maka skor median agen akan sama dengan skor apa pun yang diberikan kepada agen ketika acara tidak terjadi, terlepas dari peristiwa itu probabilitas tepat. Tahanan analog tampaknya terjadi jika kita mengganti mean dengan, katakanlah, mean geometrik.
Jadi, adakah pengertian bahwa agar teori aturan penilaian yang tepat berfungsi sebagaimana dimaksud, fungsi statistik harus menjadi rerata?
Saya menyadari ini adalah pertanyaan yang tidak jelas, dan jawaban terbaik kemungkinan adalah penjelasan mengapa pertanyaan itu tidak masuk akal, jadi inilah konteks di mana saya menemukan diri saya bertanya, untuk membantu Anda membuat saya bingung. Saya seorang psikolog pengambilan keputusan, dan saya sering mendapati diri saya ingin mengukur kinerja (baik kinerja prediktif, di bawah cross-validation, atau model fit post-hoc) dari model yang memunculkan kemungkinan apa yang akan dipilih orang dalam skenario keputusan biner. Diskusi di atas menyarankan saya harus menggunakan aturan penilaian yang tepat. Mengganggu, aturan penilaian yang tepat tidak pada skala yang sama dengan probabilitas. Saya menemukan diri saya ingin, misalnya, mengambil akar kuadrat dari kuadrat kesalahan rata-rata daripada hanya melihat rata-rata kuadrat kesalahan (yaitu, skor Brier rata-rata), tetapi dalam kasus satu percobaan, RMSE setara dengan kesalahan absolut, yang tidak tepat, jadi bukankah saya kemudian berpikir bahwa model yang kurang akurat lebih baik? Jelas saya tidak bisa begitu saja mengubah metode saya mengevaluasi aturan penilaian dari satu dalam hal sarana ke satu dalam hal, misalnya, median. Haruskah saya membiasakan diri dengan skala salah satu aturan penilaian yang tepat yang biasa, atau menggunakan statistik seperti deteksi sinyal seperti area di bawah kurva ROC atau d '?
Komplikasi tambahan adalah bahwa untuk satu penelitian saya mencari model bootstrap parametrik cocok, sesuai dengan Wagenmakers, Ratcliff, Gomez, dan Iverson (2004), yang berarti saya melihat plot kepadatan skor daripada skor individu. Maka semakin tidak jelas apakah saya harus khawatir tentang kelayakan atau tentang kriteria yang analog.
Sunting: lihat utas komentar ini di Reddit untuk diskusi lebih lanjut.
Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Menilai model mimikri menggunakan bootstrap parametrik. Jurnal Psikologi Matematika, 48 , 28-50. doi: 10.1016 / j.jmp.2003.11.004
sumber
Jawaban:
Bertentangan dengan apa yang Anda katakan tentang shenanigans mean geometrik, sebenarnya ada aturan penilaian yang tepat untuk mean geometrik.
Mean geometrik dari variabel acakX adalah sama dengan eE( logX) . Oleh karena itu meminimalkan rata-rata geometrik dari skor acakS sesuai dengan meminimalkan rata-rata aritmatika dari skor acak catatanS . Jadi jikaf(hal^) adalah aturan penilaian standar yang tepat (di mana f(hal^) adalah skor yang Anda dapatkan jika Anda memprediksi suatu probabilitas hal^ dan peristiwa itu terjadi), lalu g(hal^) = logf(hal^) adalah aturan penilaian yang tepat untuk rata-rata geometrik.
Demikian pula dengan rata-rata harmonik dariX adalah E(X- 1)- 1 jadi g(hal^) = - f(hal^)- 1 adalah aturan penilaian harmonik yang tepat. (Tanda negatif ada di sana sehingga transformasi koordinat meningkat monoton.)
Ini bekerja untuk setiap kecenderungan sentral yang merupakan rata-rata aritmatika dalam ruang yang berubah secara monoton. Masalahnya adalah median tidak berfungsi seperti ini. Lebih umum, kecenderungan sentral dengan titik pemecahan nol tidak akan berfungsi, karena akan menjadi tidak sensitif terhadap perubahan probabilitas ketikahal kecil. Misalnya rentang interkuartil tidak akan berfungsi, karena jikap < 0,25 , maka kisaran interkuartil dari skor tidak bergantung pada hal (begitu juga hal^ harus meminimalkan IQR untuk semua nilai hal kurang dari 0,25 , yang buruk).
Dari atas kepala saya, saya tidak dapat memikirkan kecenderungan sentral dengan 0 titik pemecahan yang tidak dapat ditulis ulang sebagai transformasi monoton dari rata-rata aritmatika, tetapi itu mungkin karena saya tidak tahu cukup kalkulus variasional (tentu saja tidak cukup untuk membuktikan aku benar). Namun, jika saya benar, maka "pada dasarnya" itu benar
Satu komentar lain: Anda menyarankan menggunakan RMSE sebagai aturan penilaian, tetapi Anda tidak harus melakukannya karena bertepatan dengan kesalahan absolut ketika ada satu titik data. Ini sepertinya mencerminkan beberapa kebingungan. Anda selalu mengevaluasi aturan penilaian pada setiap prediksi individu. Kemudian jika Anda ingin meringkas skor, Anda dapat mengambil kecenderungan sentral skor setelahnya. Jadi memprediksi untuk mengoptimalkan RMSE selalu identik dengan mengoptimalkan kesalahan absolut.
Di sisi lain, Anda bisa melakukan sesuatu seperti mengambil akar kuadrat dari skor Brier rata-rata sebagai ringkasan Anda jika Anda ingin memiliki ringkasan skor yang berada di "unit probabilitas." Tetapi saya pikir akan lebih produktif jika Anda membiasakan diri dengan tolok ukur untuk skala skor Brier, karena itulah yang biasanya akan Anda lihat:
Anda juga dapat membuat tolok ukur lain dengan menggunakan model yang sangat sederhana - misalnya, jika Anda mengabaikan semua info tentang acara dan hanya memprediksi tarif dasarhal , maka skor Brier Anda adalah p ( 1 - p ) . Atau jika Anda memprediksi deret waktu, Anda dapat melihat seberapa baik rata-rata tertimbang dari beberapa peristiwa terakhir, dll.
sumber
Anda harus kembali ke motivasi untuk aturan penilaian yang tepat, yang Anda nyatakan longgar sebagai "agen dengan skor paling rendah membuat tebakan paling akurat." Tepatnya, asal-usul aturan penilaian adalah untuk memperoleh probabilitas yang mencerminkan keyakinan sejati - seperti yang Anda nyatakan, seseorang tidak bisa melakukan lebih baik daripada menawarkan probabilitas yang sesuai dengan keyakinan mereka ketika ditawarkan aturan penilaian sebagai hadiah. Aturan penilaian telah digunakan untuk menentukan apa arti probabilitas tanpa merujuk pada batas sejumlah besar pengulangan.
Aturan pemberian skor seperti itu diperoleh dengan mengambil ekspektasi atas aturan tersebut, maka tampilan rata-rata dari sekumpulan prediksi. Jadi, ketika Anda bertanya harus, "fungsional statistik harus menjadi mean?" Anda benar-benar bertanya bagaimana kita dapat mengambil ekspektasi atas serangkaian skor dengan beberapa metode lain daripada penggunaan rata-rata konvensional?
Saya membaca kekhawatiran Anda bahwa "aturan penilaian yang tepat tidak pada skala yang sama dengan probabilitas" yang mungkin Anda ingin nyatakan seberapa baik atau buruk skor yang dihitung? Selain dari skor Brier, log perbedaan absolut antara probabilitas yang ditawarkan dan hasil 0,1 juga merupakan aturan penilaian yang tepat, tetapi itu mungkin tidak memberikan hasil yang lebih dapat ditafsirkan, terutama karena dapat menyimpang ke nilai ekstrim untuk kesalahan besar.
Terkubur dalam derivasi aturan penilaian adalah bahwa pembuat keputusan memiliki utilitas linier, maka harapan diambil alih aturan penilaian secara langsung, bukan atas utilitas hasil aturan penilaian. (Seseorang mungkin berisiko merugikan penyimpangan besar dari kebenaran, dan itu akan membiaskan probabilitas yang ditimbulkannya.) Mungkin Anda secara implisit memikirkan fungsi utilitas yang menyatakan seberapa baik atau buruk "probabilitas dari apa yang akan dipilih orang" daripada hanya probabilitas sendiri?
sumber