Apa konsekuensi dari peristiwa langka dalam regresi logistik?

9

Saya tahu bahwa ukuran sampel mempengaruhi daya dalam metode statistik apa pun. Ada aturan praktis untuk berapa banyak sampel yang dibutuhkan regresi untuk setiap prediktor.

Saya juga sering mendengar bahwa jumlah sampel dalam setiap kategori dalam variabel dependen dari regresi logistik adalah penting. Kenapa ini?

Apa konsekuensi aktual dari model regresi logistik ketika jumlah sampel dalam salah satu kategori kecil (kejadian langka)?

Apakah ada aturan praktis yang menggabungkan jumlah prediktor dan jumlah sampel di setiap tingkat variabel dependen?

Hebat38
sumber
stats.stackexchange.com/questions/306122/… stats.stackexchange.com/questions/178015/… (dan banyak pertanyaan serupa yang belum terjawab)
kjetil b halvorsen
Saya pikir referensi ini dapat membantu. Manel, S., Williams, HC, Ormerod, SJ, 2001. Mengevaluasi model absensi dalam ekologi: perlunya memperhitungkan prevalensi. J. Appl. Ecol. 38 (5), 921–931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Ada banyak lagi tentang pemodelan dataset yang tidak seimbang.
Rafa_Mas

Jawaban:

11

Aturan praktis standar untuk regresi linier (OLS) adalah bahwa Anda setidaknya perlu10data per variabel atau Anda akan 'mendekati' saturasi . Namun, untuk regresi logistik, aturan praktis yang sesuai adalah yang Anda inginkan15data kategori kurang umum untuk setiap variabel.

Masalahnya di sini adalah bahwa data biner tidak mengandung informasi sebanyak data kontinu. Selain itu, Anda dapat memiliki prediksi sempurna dengan banyak data, jika Anda hanya memiliki beberapa peristiwa aktual. Untuk membuat contoh yang agak ekstrem, tetapi harus segera jelas, pertimbangkan kasus yang Anda milikiN=300, dan mencoba menyesuaikan model dengan 30 prediksi, tetapi hanya punya 3acara Anda bahkan tidak dapat memperkirakan hubungan antara sebagian besar dari AndaX-Berbagai dan Y.

gung - Pasang kembali Monica
sumber
2
+1 Juga, dengan kejadian langka, Anda akan membutuhkan banyak kasus yang mengejutkan untuk memperkirakan intersep yang benar ( Harrell , pada halaman 233, mengatakan total 96 kasus memiliki kepercayaan 95% dari kemungkinan prediksi dalam 0,1 dari nilai sebenarnya ketika benar probabilitas mendekati 0 dalam model intersep-only), dan jika ada pengambilan sampel yang tidak seimbang Anda mungkin perlu koreksi peristiwa langka
EdM
1
Jadi kejadian langka bisa membiaskan perkiraan intersepsi. Apakah peristiwa langka menyebabkan masalah spesifik lainnya (inkonsistensi, ketidakstabilan, masalah konvergensi saat menghitung MLE)?
Hebat38
@ Hebat38 masalah "prediksi sempurna" dalam jawaban ini dapat menyebabkan masalah dengan konvergensi dan kesalahan standar yang luas. Lihat posting ini dan yang lainnya tentang efek Hauck-Donner atau pemisahan sempurna.
EdM
@ Hebat38, pertanyaannya sedikit tidak jelas. Sebenarnya tidak ada masalah dengan acara langka. Jika saya punya1020 data, tetapi hanya dengan ' 106 peristiwa dalam model dengan ratusan prediktor, laju acara saya adalah 0.00000000000001Tetapi saya seharusnya tidak berharap memiliki masalah meskipun proporsi acara saya rendah & ratusan prediktor saya.
gung - Reinstate Monica