Situasi saya:
- ukuran sampel kecil: 116
- variabel hasil biner
- daftar panjang variabel penjelas: 44
- variabel penjelas tidak datang dari atas kepala saya; pilihan mereka didasarkan pada literatur.
- kebanyakan kasus dalam sampel dan sebagian besar variabel memiliki nilai yang hilang.
Pendekatan untuk pemilihan fitur yang dipilih: LASSO
Paket glmnet R tidak akan membiarkan saya menjalankan rutin glmnet, tampaknya karena adanya nilai-nilai yang hilang dalam kumpulan data saya. Tampaknya ada berbagai metode untuk menangani data yang hilang, jadi saya ingin tahu:
- Apakah LASSO memberlakukan batasan dalam hal metode imputasi yang dapat saya gunakan?
- Apa yang akan menjadi taruhan terbaik untuk metode imputasi? Idealnya, saya memerlukan metode yang bisa saya jalankan di SPSS (lebih disukai) atau R.
UPDATE1: Menjadi jelas dari beberapa jawaban di bawah ini bahwa saya telah menangani masalah yang lebih mendasar sebelum mempertimbangkan metode imputasi. Saya ingin menambahkan di sini pertanyaan baru tentang itu. Pada jawaban yang menyarankan pengkodean sebagai nilai konstan dan pembuatan variabel baru untuk menangani nilai-nilai 'tidak berlaku' dan penggunaan laso grup:
- Apakah Anda mengatakan bahwa jika saya menggunakan grup LASSO, saya akan dapat menggunakan pendekatan yang disarankan untuk prediktor kontinu juga untuk prediktor kategoris? Jika demikian, saya anggap itu sama dengan membuat kategori baru - saya khawatir ini dapat menimbulkan bias.
- Apakah ada yang tahu jika paket glmnet R mendukung grup LASSO? Jika tidak, apakah ada yang menyarankan yang lain yang melakukan itu dalam kombinasi dengan regresi logistik? Beberapa opsi yang menyebutkan grup LASSO dapat ditemukan di repositori CRAN, ada saran yang paling sesuai untuk kasus saya? Mungkin SGL?
Ini adalah tindak lanjut dari pertanyaan saya sebelumnya ( Bagaimana memilih subset variabel dari daftar panjang asli saya untuk melakukan analisis regresi logistik? ).
OBS: Saya bukan ahli statistik.
sumber
Jawaban:
Ketika prediktor kontinu berisi nilai 'tidak berlaku', sering berguna untuk mengkodekannya menggunakan dua variabel:x
di mana adalah konstanta, &c
Misalkan prediktor linier untuk respons diberikan oleh
yang memutuskan untuk
ketika diukur, atau kex
ketika x 'tidak berlaku'. Pilihan adalah arbitrer, & tidak memengaruhi estimasi intersep atau slope ; menjelaskan efek dari yang 'tidak berlaku' dibandingkan dengan ketika .c β0 β1 β2 x x=c
Ini bukan pendekatan yang cocok ketika respon bervariasi sesuai dengan nilai tidak diketahui : variabilitas kelompok 'hilang' akan meningkat, & estimasi koefisien prediktor lain 'bias karena perancu. Lebih baik menyalahkan nilai yang hilang.x
Penggunaan LASSO memperkenalkan dua masalah:
Anda dapat menyelesaikan keduanya dengan menggunakan grup LASSO dengan grup yang terdiri dari & : hukuman -norm diterapkan pada -norm dari matriks ortonormalisasi . (Prediktor kategorikal adalah anak poster untuk grup LASSO — Anda hanya akan mengkode 'tidak berlaku' sebagai level yang terpisah, seperti yang sering dilakukan dalam regresi yang tidak dilegalisasi.) Lihat Meier et al (2008), JRSS B, 70 , 1, "The laso grup untuk regresi logistik " & grplasso .x1 x2 L1 L2 [x1→ x2→]
sumber
Imputasi Berganda tidak pernah merupakan pendekatan yang buruk. Anda juga bisa melakukan Informasi Lengkap Kemungkinan Maksimal. Ulasan bagus dan perbandingan di sini dan di sini .
Tetapi jika Anda memilih rute itu, pertimbangkan untuk menggunakan Stan agar sesuai dengan imputasi ML bersamaan dengan regresi Anda sebagai model Bayesian tunggal, karena LASSO adalah kasus khusus dari regresi Bayesian .
sumber
mi
yang mungkin membantu Anda.Amelia
danmice
.Perintah CATREG dalam Statistik menangani data yang hilang dengan LASSO. Anda dapat mengecualikan kasus secara searah atau memiliki prosedur yang dipermasalahkan. Meskipun namanya menyarankan untuk variabel kategori, Anda dapat mengatur skala ke Numerik untuk menangani kasus kontinu.
sumber
PROC CATREG
, saya kira?Anda juga dapat mempertimbangkan pendekatan sederhana yang disajikan dalam makalah berikut:
Loh, PL, & Wainwright, MJ (2011). Regresi dimensi tinggi dengan data berisik dan hilang: Jaminan yang dapat dibuktikan dengan non-konveksitas . Dalam Kemajuan dalam Sistem Pemrosesan Informasi Saraf Tiruan (hlm. 2726-2734).
sumber