Saya cocok dengan keluarga binomial glm di R, dan saya memiliki seluruh kelompok variabel penjelas, dan saya perlu menemukan yang terbaik (R-kuadrat sebagai ukuran baik-baik saja). Singkat penulisan skrip untuk mengulang melalui kombinasi acak yang berbeda dari variabel penjelas dan kemudian merekam yang melakukan yang terbaik, saya benar-benar tidak tahu apa yang harus dilakukan. Dan leaps
fungsi dari lompatan paket tampaknya tidak melakukan regresi logistik.
Setiap bantuan atau saran akan sangat dihargai.
Jawaban:
Metode bertahap dan "semua himpunan bagian" umumnya buruk. Lihat Menghentikan Stepwise: Mengapa Metode Stepwise Buruk dan apa yang Harus Anda Gunakan oleh David Cassell dan saya sendiri (kami menggunakan SAS, tetapi pelajarannya berlaku) atau Strategi Pemodelan Regresi Frank Harrell. Jika Anda memerlukan metode otomatis, saya sarankan LASSO atau LAR. Paket LASSO untuk regresi logistik tersedia di sini , artikel menarik lainnya adalah LASSO yang diulang untuk logistik
sumber
lrm
, atau buku teks RMS-nya untuk info lebih lanjut).Regresi logistik diperkirakan dengan metode kemungkinan maksimum, jadi
leaps
tidak digunakan secara langsung di sini. Perpanjanganleaps
keglm()
fungsi adalah paket bestglm (seperti biasanya rekomendasi berikut, lihat sketsa di sana).Anda mungkin juga tertarik dengan artikel oleh David W. Hosmer, Borko Jovanovic dan Stanley Lemeshow Best Subsets Logistic Regression // Biometrics Vol. 45, No. 4 (Desember, 1989), hlm. 1265-1270 (biasanya dapat diakses melalui jaringan universitas).
sumber
R2R2 is not an appropriate goodness-of-fit measure for logistic regression take an information criterion AICAIC or BICBIC
bestglm
, itu digunakanleaps
di backend untuk perhitungan! Jadi itu akan gagal jika ada NA dalam dataset dan akan muncul dengan pesan sepertiError in leaps.setup(x, y, wt = weights, nbest = nbest, nvmax = nvmax, : NA/NaN/Inf in foreign function call (arg 3)
Tapi apa yang menarik, dataset saya tidak memiliki NA melainkan beberapa nol namun fungsi ini mengeluh dan memberikan pesan yang tepat di atas !!Satu ide adalah menggunakan hutan acak dan kemudian menggunakan ukuran variabel penting yang dikeluarkannya untuk memilih 8 variabel terbaik Anda. Gagasan lain adalah menggunakan paket "boruta" untuk mengulangi proses ini beberapa ratus kali untuk menemukan 8 variabel yang secara konsisten paling penting bagi model.
sumber
stats::step
fungsi atauMASS::stepAIC
dukungan fungsi yang lebih umumlm
,glm
(yaitu regresi logistik) danaov
model keluarga.sumber