Apa yang modern, alternatif yang mudah digunakan untuk regresi bertahap?

76

Saya memiliki dataset dengan sekitar 30 variabel independen dan ingin membangun model linier umum (GLM) untuk mengeksplorasi hubungan antara mereka dan variabel dependen.

Saya sadar bahwa metode yang saya ajarkan untuk situasi ini, regresi bertahap, sekarang dianggap sebagai dosa statistik .

Metode pemilihan model modern apa yang harus digunakan dalam situasi ini?

fmark
sumber
4
Orang lain menyebutkan prosedur statistik yang mungkin membantu, tetapi saya pertama-tama akan bertanya apakah Anda memiliki teori tentang kekuatan dan bentuk hubungan antara variabel. Seberapa besar sampel Anda? Apakah Anda punya alasan untuk menghindari model yang rumit?
Michael Bishop
2
Adakah yang menganggap model rata-rata sebagai alternatif untuk melawan masalah bias pra-pengujian dan masalah spesifikasi yang salah? Secara kasar, semua variabel adalah prediktor potensial, dan Anda dapat memperkirakan probabilitasnya agar berguna. Dengan demikian estimator gabungan tidak hanya meningkatkan kinerja peramalan, tetapi juga menghasilkan estimasi sifat yang baik untuk parameter variabel di bawah "cakupan".
Dmitrij Celov
1
Penyusutan. Tidak ada yang menggunakan langkah bertahap lagi, semoga saja
Aksakal

Jawaban:

56

Ada beberapa alternatif untuk Regresi Stepwise . Yang paling sering saya lihat adalah:

  • Pendapat ahli untuk memutuskan variabel mana yang akan dimasukkan dalam model.
  • Regresi Kotak Terkecil Sebagian . Anda pada dasarnya mendapatkan variabel laten dan melakukan regresi dengannya. Anda juga bisa melakukan PCA sendiri dan kemudian menggunakan variabel utama.
  • Penyusutan dan Seleksi Absolut Mutlak (LASSO).

Baik Regresi PLS dan LASSO diimplementasikan dalam paket R seperti

PLS : http://cran.r-project.org/web/packages/pls/ dan

LARS : http://cran.r-project.org/web/packages/lars/index.html

Jika Anda hanya ingin menjelajahi hubungan antara variabel dependen Anda dan variabel independen (mis. Anda tidak memerlukan tes signifikansi statistik), saya juga akan merekomendasikan metode Pembelajaran Mesin seperti Hutan Acak atau Pohon Klasifikasi / Regresi . Random Forests juga dapat memperkirakan hubungan non-linear yang kompleks antara variabel dependen dan independen Anda, yang mungkin tidak terungkap oleh teknik linear (seperti Regresi Linier ).

Titik awal yang baik untuk Pembelajaran Mesin mungkin adalah tampilan tugas Pembelajaran Mesin pada CRAN:

Tampilan Tugas Pembelajaran Mesin : http://cran.r-project.org/web/views/MachineLearning.html

Johannes
sumber
10
Paket glmnet adalah implementasi yang sangat cepat dari laso juga
David J. Harris
2
Saya akan memperingatkan bahwa dalam komunitas variabel laten, PLSers membentuk klik mereka sendiri yang sangat terisolasi, dan tidak pernah dapat menembus literatur yang serius (yang saya maksud, misalnya, teori asimtotik dari penduga kuadrat terkecil dalam karya Michael Browne, Peter Bentler, Albert Satorra dan Alex Shapiro, dan pemodelan variabel instrumental Ken Bollen, untuk menyebutkan beberapa yang paling penting). Namun anehnya, PLS tampaknya merupakan metode yang dapat diterima dalam lingkaran statistik, yang pada umumnya menjunjung tinggi standar kekakuan daripada komunitas pemodelan variabel laten.
Tugas
6
The Elements of statistik Learning memiliki perbandingan differend variabel seleksi dan penyusutan metode: (OLS,) bagian terbaik, punggung, lasso, PLS, PCR.
cbeleites
19

Pilihan lain yang dapat Anda pertimbangkan untuk pemilihan variabel dan regularisasi adalah jaring elastis . Ini diimplementasikan dalam R melalui paket glmnet .

Zach
sumber
16

Rata-rata model adalah salah satu cara untuk melangkah (pendekatan informasi-teori). Paket R glmulti dapat melakukan model linier untuk setiap kombinasi variabel prediktor, dan melakukan model rata-rata untuk hasil ini.

Lihat http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Jangan lupa untuk menyelidiki kolinearitas antara variabel prediktor terlebih dahulu. Variance Inflation Factor (tersedia dalam paket R "car") berguna di sini.

OliP
sumber
Terima kasih. Apakah ini benar-benar cocok untuk semua model yang mungkin? Bahkan tanpa interaksi itu sekitar satu miliar model dalam kasus ini.
Peter Ellis
AFAIK bisa, tetapi ada opsi algoritme genetik yang sangat mengurangi waktu yang diperlukan untuk mengevaluasi semua model. Lihat www.jstatsoft.org/v34/i12/paper
OliP
3
juga MuMIn, AICcmodavgpaket, meskipun glmultilebih pintar tentang set model besar.
Ben Bolker
8

@johannes memberi jawaban yang bagus. Jika Anda adalah pengguna SAS, maka LASSO tersedia melalui PROC GLMSELECT dan kuadrat terkecil parsial melalui PROC PLS.

David Cassell dan saya membuat presentasi tentang LASSO (dan Least Angle Regression) di beberapa kelompok pengguna SAS. Ini tersedia di sini

Peter Flom - Pasang kembali Monica
sumber
7

Diskusi yang menarik. Memberi label regresi bertahap sebagai dosa statistik adalah sedikit pernyataan agama - selama orang tahu apa yang mereka lakukan dan bahwa tujuan dari latihan ini jelas, itu jelas merupakan pendekatan yang baik dengan serangkaian asumsi sendiri dan, tentu saja bias, dan tidak menjamin optimalitas, dll. Namun, hal yang sama dapat dikatakan tentang banyak hal lain yang kita lakukan. Saya belum melihat CCA disebutkan, yang membahas masalah yang lebih mendasar dari struktur korelasi dalam ruang kovariat, tidak menjamin optimalitas, telah ada selama beberapa waktu, dan memiliki sedikit kurva pembelajaran. Ini diimplementasikan pada berbagai platform termasuk R.

Gillesc
sumber