Saya memiliki dataset dengan sekitar 30 variabel independen dan ingin membangun model linier umum (GLM) untuk mengeksplorasi hubungan antara mereka dan variabel dependen.
Saya sadar bahwa metode yang saya ajarkan untuk situasi ini, regresi bertahap, sekarang dianggap sebagai dosa statistik .
Metode pemilihan model modern apa yang harus digunakan dalam situasi ini?
Jawaban:
Ada beberapa alternatif untuk Regresi Stepwise . Yang paling sering saya lihat adalah:
Baik Regresi PLS dan LASSO diimplementasikan dalam paket R seperti
PLS : http://cran.r-project.org/web/packages/pls/ dan
LARS : http://cran.r-project.org/web/packages/lars/index.html
Jika Anda hanya ingin menjelajahi hubungan antara variabel dependen Anda dan variabel independen (mis. Anda tidak memerlukan tes signifikansi statistik), saya juga akan merekomendasikan metode Pembelajaran Mesin seperti Hutan Acak atau Pohon Klasifikasi / Regresi . Random Forests juga dapat memperkirakan hubungan non-linear yang kompleks antara variabel dependen dan independen Anda, yang mungkin tidak terungkap oleh teknik linear (seperti Regresi Linier ).
Titik awal yang baik untuk Pembelajaran Mesin mungkin adalah tampilan tugas Pembelajaran Mesin pada CRAN:
Tampilan Tugas Pembelajaran Mesin : http://cran.r-project.org/web/views/MachineLearning.html
sumber
Pilihan lain yang dapat Anda pertimbangkan untuk pemilihan variabel dan regularisasi adalah jaring elastis . Ini diimplementasikan dalam R melalui paket glmnet .
sumber
Rata-rata model adalah salah satu cara untuk melangkah (pendekatan informasi-teori). Paket R glmulti dapat melakukan model linier untuk setiap kombinasi variabel prediktor, dan melakukan model rata-rata untuk hasil ini.
Lihat http://sites.google.com/site/mcgillbgsa/workshops/glmulti
Jangan lupa untuk menyelidiki kolinearitas antara variabel prediktor terlebih dahulu. Variance Inflation Factor (tersedia dalam paket R "car") berguna di sini.
sumber
MuMIn
,AICcmodavg
paket, meskipunglmulti
lebih pintar tentang set model besar.@johannes memberi jawaban yang bagus. Jika Anda adalah pengguna SAS, maka LASSO tersedia melalui PROC GLMSELECT dan kuadrat terkecil parsial melalui PROC PLS.
David Cassell dan saya membuat presentasi tentang LASSO (dan Least Angle Regression) di beberapa kelompok pengguna SAS. Ini tersedia di sini
sumber
Diskusi yang menarik. Memberi label regresi bertahap sebagai dosa statistik adalah sedikit pernyataan agama - selama orang tahu apa yang mereka lakukan dan bahwa tujuan dari latihan ini jelas, itu jelas merupakan pendekatan yang baik dengan serangkaian asumsi sendiri dan, tentu saja bias, dan tidak menjamin optimalitas, dll. Namun, hal yang sama dapat dikatakan tentang banyak hal lain yang kita lakukan. Saya belum melihat CCA disebutkan, yang membahas masalah yang lebih mendasar dari struktur korelasi dalam ruang kovariat, tidak menjamin optimalitas, telah ada selama beberapa waktu, dan memiliki sedikit kurva pembelajaran. Ini diimplementasikan pada berbagai platform termasuk R.
sumber