Tentukan akurasi model yang memperkirakan probabilitas kejadian

12

Saya memodelkan suatu acara dengan dua hasil, a dan b. Saya telah membuat model yang memperkirakan probabilitas bahwa a atau b akan terjadi (yaitu model akan menghitung bahwa a akan terjadi dengan peluang 40% dan b akan terjadi dengan peluang 60%).

Saya memiliki catatan besar hasil uji coba dengan perkiraan dari model. Saya ingin mengukur seberapa akurat model menggunakan data ini - apakah ini mungkin, dan jika ya, bagaimana?

Peter
sumber
Saya mungkin salah tetapi saya pikir Anda tertarik dengan pelatihan dan / atau kesalahan uji model Anda. Lihat, misalnya: cs.ucla.edu/ ~falaki
Stijn
1
@Stijn Dia memprediksi probabilitas meskipun daripada langsung mengklasifikasikan sebagai a atau b, jadi saya tidak berpikir metrik itu adalah apa yang dia minta.
Michael McGowan
6
Apakah Anda lebih tertarik pada seberapa baik model pada akhirnya akan melakukan klasifikasi (dalam hal ini jenis analisis ROC dan AUC tampaknya paling relevan ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Atau Anda lebih tertarik memahami bagaimana "dikalibrasi" prediksi probabilitas adalah (yaitu apakah P (Hasil = A) = 60% benar-benar berarti 60%, atau hanya itu hasil = A lebih mungkin daripada hasil lainnya ...
DavidR
1
Sepertinya Anda ingin tahu tentang penilaian probabilitas .
whuber
1
Elvis, sebuah artikel dalam edisi terbaru dari Analisis Keputusan menarik perhatian saya pada penilaian probabilitas. Tampaknya untuk membangun literatur substansial tentang topik tersebut. (Saya tidak memiliki akses ke abstrak, jadi saya tidak bisa mengomentari artikel itu sendiri.) Sebuah makalah oleh editor jurnal (yang tersedia secara bebas ) menyebutkan sejumlah makalah sebelumnya tentang topik yang sama.
whuber

Jawaban:

16

Misalkan model Anda memang memprediksi A memiliki peluang 40% dan B memiliki peluang 60%. Dalam beberapa keadaan Anda mungkin ingin mengubahnya menjadi klasifikasi bahwa B akan terjadi (karena lebih mungkin daripada A). Setelah dikonversi menjadi klasifikasi, setiap prediksi bisa benar atau salah, dan ada sejumlah cara menarik untuk menghitung jawaban yang benar dan salah. Salah satunya adalah akurasi langsung (persentase jawaban yang benar). Lainnya termasuk presisi dan daya ingat atau ukuran-F . Seperti yang disebutkan orang lain, Anda mungkin ingin melihat kurva ROC . Lebih jauh, konteks Anda mungkin menyediakan matriks biaya spesifik yang memberikan penghargaan bagi positif benar berbeda dari negatif sebenarnya dan / atau menghukum positif palsu berbeda dari negatif palsu.

Namun, saya tidak berpikir itulah yang sebenarnya Anda cari. Jika Anda mengatakan B memiliki peluang 60% untuk terjadi dan saya katakan itu memiliki peluang 99% untuk terjadi, kami memiliki prediksi yang sangat berbeda walaupun keduanya akan dipetakan ke B dalam sistem klasifikasi sederhana. Jika A terjadi sebagai gantinya, Anda hanya salah sementara saya sangat salah, jadi saya berharap bahwa saya akan menerima hukuman lebih keras dari Anda. Ketika model Anda benar-benar menghasilkan probabilitas, aturan penilaian adalah ukuran kinerja prediksi probabilitas Anda. Khususnya Anda mungkin menginginkan aturan penilaian yang tepat , artinya skor dioptimalkan untuk hasil yang dikalibrasi dengan baik.

Contoh umum aturan penilaian adalah skor Brier : mana adalah probabilitas yang diperkirakan dari peristiwa yang terjadi dan adalah 1 jika peristiwa itu terjadi dan 0 jika tidak.

BS=1Nt=1N(ftot)2
ftot

Tentu saja jenis aturan penilaian yang Anda pilih mungkin tergantung pada jenis acara apa yang Anda coba prediksi. Namun, ini harus memberi Anda beberapa ide untuk penelitian lebih lanjut.

Saya akan menambahkan peringatan bahwa terlepas dari apa yang Anda lakukan, ketika menilai model Anda dengan cara ini saya sarankan Anda melihat metrik Anda pada data out-of-sample (yaitu, data yang tidak digunakan untuk membangun model Anda). Ini dapat dilakukan melalui validasi silang . Mungkin lebih sederhana Anda dapat membangun model Anda pada satu dataset dan kemudian menilai pada yang lain (berhati-hati untuk tidak membiarkan kesimpulan dari tumpahan sampel ke dalam pemodelan sampel).

Michael McGowan
sumber