Saya tahu bahwa ukuran sampel mempengaruhi daya dalam metode statistik apa pun. Ada aturan praktis untuk berapa banyak sampel yang dibutuhkan regresi untuk setiap prediktor.
Saya juga sering mendengar bahwa jumlah sampel dalam setiap kategori dalam variabel dependen dari regresi logistik adalah penting. Kenapa ini?
Apa konsekuensi aktual dari model regresi logistik ketika jumlah sampel dalam salah satu kategori kecil (kejadian langka)?
Apakah ada aturan praktis yang menggabungkan jumlah prediktor dan jumlah sampel di setiap tingkat variabel dependen?
logistic
assumptions
rare-events
Hebat38
sumber
sumber
Jawaban:
Aturan praktis standar untuk regresi linier (OLS) adalah bahwa Anda setidaknya perlu10 data per variabel atau Anda akan 'mendekati' saturasi . Namun, untuk regresi logistik, aturan praktis yang sesuai adalah yang Anda inginkan15 data kategori kurang umum untuk setiap variabel.
Masalahnya di sini adalah bahwa data biner tidak mengandung informasi sebanyak data kontinu. Selain itu, Anda dapat memiliki prediksi sempurna dengan banyak data, jika Anda hanya memiliki beberapa peristiwa aktual. Untuk membuat contoh yang agak ekstrem, tetapi harus segera jelas, pertimbangkan kasus yang Anda milikiN= 300 , dan mencoba menyesuaikan model dengan 30 prediksi, tetapi hanya punya 3 acara Anda bahkan tidak dapat memperkirakan hubungan antara sebagian besar dari AndaX -Berbagai dan Y .
sumber