Saya punya model regresi linier dengan sampel dan observasi variabel dan saya ingin tahu:
- Apakah variabel tertentu cukup signifikan untuk tetap dimasukkan dalam model.
- Apakah variabel lain (dengan pengamatan) harus dimasukkan dalam model.
Statistik mana yang dapat membantu saya? Bagaimana cara mendapatkannya dengan paling efisien?
regression
Wilhelm
sumber
sumber
Saya komentar kedua Rob. Alternatif yang semakin disukai adalah memasukkan semua variabel Anda dan mengecilkannya ke 0. Lihat Tibshirani, R. (1996). Penyusutan regresi dan seleksi melalui laso.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
sumber
Untuk bagian 1, Anda mencari F-test . Hitung jumlah residu kuadrat Anda dari setiap model yang cocok dan hitung statistik F, yang dapat Anda gunakan untuk menemukan nilai-p baik dari distribusi-F atau dari beberapa distribusi nol lain yang Anda hasilkan sendiri.
sumber
Suara lain untuk jawaban Rob.
Ada juga beberapa ide menarik dalam literatur "kepentingan relatif". Karya ini mengembangkan metode yang berusaha untuk menentukan seberapa besar pentingnya dikaitkan dengan masing-masing dari sejumlah calon prediktor. Ada metode Bayesian dan Frequentist. Periksa paket "relaimpo" dalam R untuk kutipan dan kode.
sumber
Saya juga suka jawaban Rob. Dan, jika Anda kebetulan menggunakan SAS daripada R, Anda dapat menggunakan PROC GLMSELECT untuk model yang akan dilakukan dengan PROC GLM, meskipun itu berfungsi dengan baik untuk beberapa model lain, juga. Lihat
Flom dan Cassell "Menghentikan Stepwise: Mengapa Metode Pemilihan Stepwise Buruk dan Apa yang Harus Anda Gunakan" disajikan di berbagai kelompok, yang terbaru, NESUG 2009
sumber