Saya memvalidasi silang model yang mencoba memprediksi hitungan. Jika ini adalah masalah klasifikasi biner, saya akan menghitung AUC out-of-fold, dan jika ini adalah masalah regresi saya akan menghitung RMSE atau MAE out-of-fold
Untuk model Poisson, metrik kesalahan apa yang dapat saya gunakan untuk mengevaluasi "keakuratan" dari prediksi out-of-sample? Apakah ada ekstensi Poisson dari AUC yang melihat seberapa baik prediksi memesan nilai aktual?
Tampaknya banyak kompetisi Kaggle untuk penghitungan (mis. Jumlah suara yang bermanfaat yang akan ditinjau oleh ulasan, atau beberapa hari yang akan dihabiskan pasien di rumah sakit) menggunakan root mean log squared error, atau RMLSE.
/ Sunting: Satu hal yang telah saya lakukan adalah menghitung desil dari nilai yang diprediksi, dan kemudian melihat penghitungan yang sebenarnya, binned oleh decile. Jika desil 1 rendah, desil 10 tinggi, dan desil di antaranya semakin meningkat, saya telah menyebut model "baik," tapi saya mengalami kesulitan menghitung proses ini, dan saya yakin ada yang lebih baik pendekatan.
/ Sunting 2: Saya mencari rumus yang mengambil nilai yang diprediksi dan aktual serta mengembalikan beberapa metrik "kesalahan" atau "akurasi". Rencana saya adalah untuk menghitung fungsi ini pada data yang tidak terlipat selama cross-validation, dan kemudian menggunakannya untuk membandingkan berbagai macam model (misalnya regresi poisson, hutan acak dan GBM ).
Sebagai contoh, salah satu fungsinya adalah RMSE = sqrt(mean((predicted-actual)^2))
. Fungsi lain seperti itu adalah AUC . Tampaknya tidak ada fungsi yang tepat untuk data poisson.
Jawaban:
Ada beberapa aturan penilaian yang tepat dan sangat tepat untuk menghitung data yang dapat Anda gunakan. Aturan penilaian adalah penalti diperkenalkan dengan sebagai distribusi prediktif dan nilai yang diamati. Mereka memiliki sejumlah properti yang diinginkan, pertama dan terutama bahwa perkiraan yang lebih dekat dengan probabilitas sebenarnya akan selalu menerima lebih sedikit penalti dan ada ramalan terbaik (unik) dan itulah ketika probabilitas yang diprediksi bertepatan dengan probabilitas yang sebenarnya. Dengan demikian meminimalkan ekspektasi berarti melaporkan probabilitas sebenarnya. Lihat juga Wikipedia .P y s ( y , P )s ( y, P) P y s ( y, P)
Seringkali seseorang mengambil rata-rata dari semua nilai prediksi sebagai
Aturan mana yang harus diambil tergantung pada tujuan Anda, tetapi saya akan memberikan karakterisasi kasar ketika masing-masing bagus untuk digunakan.
Dalam apa yang berikut saya menggunakan untuk fungsi massa probabilitas prediktif dan fungsi distribusi kumulatif prediktif. A menjalankan seluruh dukungan dari distribusi jumlah (yaitu, ). menunjukkan fungsi indikator. dan adalah mean dan standar deviasi dari distribusi prediktif (yang biasanya secara langsung diestimasi jumlah dalam model data hitung). Pr ( Y = y ) F ( y ) ∑ k 0 , 1 , … , ∞ I μ σf( y) Pr ( Y= y) F( y) ∑k 0 , 1 , ... , ∞ saya μ σ
Aturan pemberian skor yang benar-benar tepat
Aturan penilaian lainnya (tidak terlalu tepat tetapi sering digunakan)
Contoh kode R untuk aturan yang benar-benar tepat:
sumber
-log(f(y))
. Apakah-
tanda itu benar-benar harus ada di sana? Dalam tautan wikipedia aturan penilaian Anda ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ), skor logaritmik sebagai tanpa tanda negatif:L(r,i)=ln(ri)
apakah itu normal? Akhirnya, dalam hal ini skor yang lebih tinggi lebih baik atau lebih buruk?