Saat ini saya memodelkan beberapa data menggunakan regresi logistik biner. Variabel dependen memiliki jumlah kasus positif dan negatif yang baik - tidak jarang. Saya juga memiliki satu set pelatihan besar (> 100.000) dan jumlah efek utama yang saya minati sekitar 15 jadi saya tidak khawatir tentang masalah p> n.
Yang saya khawatirkan adalah bahwa banyak variabel prediktor saya, jika kontinu, adalah nol sebagian besar waktu, dan jika nominal, adalah nol sebagian besar waktu. Ketika variabel prediktor jarang ini mengambil nilai> 0 (atau tidak nol), saya tahu karena terbiasa dengan data bahwa mereka harus menjadi penting dalam memprediksi kasus positif saya. Saya telah berusaha mencari informasi tentang bagaimana kesempitan prediksi ini dapat mempengaruhi model saya.
Secara khusus, saya tidak ingin efek variabel jarang tetapi penting tidak dimasukkan dalam model saya jika ada variabel prediktor lain yang jarang dan berkorelasi tetapi sebenarnya tidak melakukan pekerjaan yang baik untuk memprediksi kasus positif .
Sebagai contoh, jika saya mencoba membuat model apakah seseorang diterima di universitas liga ivy tertentu dan tiga prediktor saya adalah skor SAT, IPK, dan "donasi> 1 Juta dolar" sebagai biner, saya punya alasan untuk percaya bahwa "sumbangan> 1 Juta dolar", ketika benar, akan menjadi sangat prediksi penerimaan - lebih dari IPK atau SAT tinggi - tetapi juga sangat jarang. Bagaimana, jika sama sekali, apakah ini akan mempengaruhi model logistik saya dan apakah saya perlu melakukan penyesuaian untuk ini? Juga, akankah model model lain (katakan pohon keputusan, hutan acak, dll) menangani ini dengan lebih baik?
sumber