Saya memiliki dataset di mana tingkat kejadiannya sangat rendah (40.000 dari ). Saya menerapkan regresi logistik untuk ini. Saya telah berdiskusi dengan seseorang di mana keluar bahwa regresi logistik tidak akan memberikan matriks kebingungan yang baik pada data tingkat kejadian yang rendah. Tetapi karena masalah bisnis dan cara mendefinisikannya, saya tidak dapat meningkatkan jumlah acara dari 40.000 ke jumlah yang lebih besar meskipun saya setuju bahwa saya dapat menghapus beberapa populasi yang tidak ada.
Tolong beritahu saya pandangan Anda tentang ini, khususnya:
- Apakah akurasi regresi logistik tergantung pada tingkat kejadian atau apakah ada tingkat kejadian minimum yang direkomendasikan?
- Apakah ada teknik khusus untuk data tingkat kejadian rendah?
- Apakah menghapus populasi non-saya akan baik untuk akurasi model saya?
Saya baru mengenal pemodelan statistik, jadi maafkan ketidaktahuan saya dan harap atasi masalah terkait yang dapat saya pikirkan.
Terima kasih,
Jawaban:
Saya akan menjawab pertanyaan Anda yang rusak:
Setiap pengamatan akan memberikan beberapa informasi tambahan tentang parameter (melalui fungsi kemungkinan). Karenanya tidak ada gunanya menghapus data, karena Anda hanya akan kehilangan informasi.
Secara teknis, ya: pengamatan langka jauh lebih informatif (yaitu, fungsi kemungkinan akan lebih curam). Jika rasio acara Anda adalah 50:50, maka Anda akan mendapatkan band kepercayaan yang lebih ketat (atau interval yang kredibel jika Anda menjadi Bayesian) untuk jumlah data yang sama . Namun Anda tidak bisa memilih tingkat acara Anda (kecuali jika Anda melakukan studi kasus kontrol), jadi Anda harus puas dengan apa yang Anda miliki.
Masalah terbesar yang mungkin timbul adalah pemisahan sempurna : ini terjadi ketika beberapa kombinasi variabel memberikan semua non-peristiwa (atau semua peristiwa): dalam hal ini, estimasi parameter kemungkinan maksimum (dan kesalahan standarnya), akan mendekati tak terhingga (walaupun biasanya Algoritma akan berhenti sebelumnya). Ada dua solusi yang mungkin:
a) menghapus prediktor dari model: meskipun ini akan membuat algoritma Anda bertemu, Anda akan menghapus variabel dengan kekuatan yang paling jelas, jadi ini hanya masuk akal jika model Anda terlalu cocok untuk memulai (seperti memasang terlalu banyak interaksi rumit) .
b) menggunakan semacam hukuman, seperti distribusi sebelumnya, yang akan mengecilkan estimasi kembali ke nilai yang lebih masuk akal.
sumber
glm
fungsi R. Paling buruk, ini seperti membuang bagian dari setiap titik data yang turun berat badan, saya kira, tapi itu tidak benar-benar sama. 2) Seperti yang saya katakan, ada pengorbanan yang terkait dengan keputusan ini. Ini mungkin paling masuk akal dalam konteks di mana populasi sampel tidak didefinisikan dengan baik dan tingkat kejadian sebenarnya tidak bermakna untuk memulai. Saya pasti tidak akan merekomendasikan hal ini secara menyeluruh.Ada alternatif yang lebih baik untuk menghapus tidak ada data temporal atau spasial: Anda dapat menggabungkan data Anda lintas waktu / ruang, dan memodelkan penghitungan sebagai Poisson. Misalnya, jika acara Anda adalah "letusan gunung berapi terjadi pada hari X", maka tidak banyak hari akan terjadi letusan gunung berapi. Namun, jika Anda mengelompokkan hari menjadi beberapa minggu atau bulan, misalnya "jumlah letusan gunung berapi pada bulan X", maka Anda akan mengurangi jumlah kejadian, dan lebih banyak peristiwa akan memiliki nilai bukan nol.
sumber