Bagaimana kita memprediksi kejadian langka?

11

Saya sedang mengembangkan model prediksi risiko asuransi. Model-model ini adalah "peristiwa langka" seperti prediksi maskapai tanpa pertunjukan, deteksi kesalahan perangkat keras, dll. Ketika saya menyiapkan kumpulan data saya, saya mencoba menerapkan klasifikasi, tetapi saya tidak dapat memperoleh pengklasifikasi yang berguna karena tingginya proporsi kasus negatif .

Saya tidak punya banyak pengalaman dalam statistik dan pemodelan data di luar kursus statistik SMA, jadi saya agak bingung.

Sebagai pemikiran pertama, saya telah berpikir untuk menggunakan model proses Poisson tidak homogen. Saya mengklasifikasikannya berdasarkan data peristiwa (tanggal, lat, lon) untuk mendapatkan perkiraan yang baik tentang kemungkinan risiko pada waktu tertentu pada hari tertentu di tempat tertentu.

Saya ingin tahu, apa metodologi / algoritma untuk memprediksi kejadian langka?
Apa yang Anda rekomendasikan sebagai pendekatan untuk mengatasi masalah ini?

pengguna3378649
sumber

Jawaban:

9

Pendekatan standar adalah " teori nilai ekstrem ", ada buku bagus tentang subjek oleh Stuart Coles (meskipun harga saat ini agak, err ... ekstrem).

Alasan Anda tidak mungkin mendapatkan hasil yang baik menggunakan metode klasifikasi atau regresi adalah bahwa metode ini biasanya bergantung pada prediksi rata-rata kondisional data, dan kejadian ekstrem biasanya disebabkan oleh gabungan faktor "acak" yang semuanya menyelaraskan dalam arah yang sama, sehingga mereka berada di ujung distribusi hasil yang masuk akal, yang biasanya jauh dari rata-rata bersyarat. Yang dapat Anda lakukan adalah memprediksi seluruh distribusi bersyarat, bukan hanya rata-rata, dan mendapatkan beberapa informasi tentang kemungkinan suatu peristiwa ekstrem dengan mengintegrasikan ujung distribusi di atas ambang tertentu. Saya menemukan ini bekerja dengan baik dalam aplikasi penurunan statistik curah hujan lebat .

Dikran Marsupial
sumber
1
Apakah ada implementasi teori ini pada python?
user3378649
Maaf, saya tidak memprogram dalam Python (belum) jadi saya tidak bisa membantu di sana.
Dikran Marsupial
Maaf, saya tidak mengerti alasan Anda. Katakanlah Anda memiliki rv dan prediktor ; Anda tertarik memprediksi kapan yang jarang terjadi. Mengapa Anda tidak dapat memasukkan beberapa model klasifikasi standar untuk memperkirakan probabilitas bersyarat - katakanlah, regresi logistik? Jika saya mengerti benar, Anda mengatakan bahwa pemodelan conditional mean tidak memberi kami info berguna tentang peristiwa ekstrem , ini benar. Tetapi kita masih dapat memperkirakan menggunakan klasifikasi standar tanpa teori nilai Ekstrim - tidak? x 1 , ... , x nyx1,,xny>Y0P(y>Y0|x1,,xn)E(y|x1,,xn)y>Y0P(y>Y0|x1,,xn)
Kochede
Ya, Anda dapat melakukan itu, namun fungsi biaya yang diminimalkan tidak difokuskan untuk mendapatkan ekor distribusi yang tepat, jadi jika itu yang Anda minati, lebih baik untuk mencoba dan memodelkan peristiwa dalam ekor lebih eksplisit. .
Dikran Marsupial