Saat ini saya sedang bekerja untuk membangun model menggunakan regresi linier berganda. Setelah mengutak-atik model saya, saya tidak yakin bagaimana cara terbaik menentukan variabel mana yang harus disimpan dan yang harus dihapus.
Model saya mulai dengan 10 prediktor untuk DV. Saat menggunakan semua 10 prediktor, empat dianggap signifikan. Jika saya menghapus hanya beberapa prediktor yang jelas salah, beberapa prediktor saya yang awalnya tidak signifikan menjadi signifikan. Yang mengarahkan saya ke pertanyaan saya: Bagaimana cara menentukan prediktor mana yang akan dimasukkan dalam model mereka? Sepertinya saya Anda harus menjalankan model sekali dengan semua prediktor, menghapus yang tidak signifikan, dan kemudian jalankan kembali. Tetapi jika menghapus hanya beberapa dari prediksi itu membuat yang lain signifikan, saya bertanya-tanya apakah saya mengambil pendekatan yang salah untuk semua ini.
Saya percaya bahwa ini benang mirip dengan pertanyaan saya, tapi saya tidak yakin saya menafsirkan diskusi dengan benar. Mungkin ini lebih merupakan topik desain eksperimental, tetapi mungkin seseorang memiliki pengalaman yang dapat mereka bagikan.
Jawaban:
Berdasarkan reaksi Anda terhadap komentar saya:
Anda mencari prediksi. Dengan demikian, Anda tidak harus benar-benar mengandalkan (dalam) signifikansi koefisien. Anda akan lebih baik melakukannya
Wrt masing-masing model yang menarik : di sini terletak cukup tangkapan. Dengan 10 prediktor potensial, itu adalah satu truk penuh model potensial. Jika Anda punya waktu atau prosesor untuk ini (atau jika data Anda cukup kecil sehingga model cocok dan dievaluasi cukup cepat): miliki bola. Jika tidak, Anda dapat melakukan ini dengan menebak-nebak, pemodelan maju atau mundur (tetapi menggunakan kriteria alih-alih signifikansi), atau lebih baik lagi: gunakan beberapa algoritma yang memilih serangkaian model yang masuk akal. Salah satu algoritma yang melakukan ini, adalah regresi dihukum, khususnya regresi Lasso. Jika Anda menggunakan R, cukup tancapkan paket glmnet dan Anda siap untuk pergi.
sumber
Tidak ada jawaban sederhana untuk ini. Saat Anda menghapus beberapa variabel penjelas yang tidak signifikan, variabel lain yang berkorelasi dengan variabel tersebut mungkin menjadi signifikan. Tidak ada yang salah dengan ini, tetapi membuat pemilihan model setidaknya sebagian seni daripada sains. Inilah sebabnya mengapa percobaan bertujuan untuk menjaga variabel penjelas ortogonal satu sama lain, untuk menghindari masalah ini.
Secara tradisional analis melakukan penambahan bertahap dan pengurangan variabel ke model satu per satu (mirip dengan apa yang telah Anda lakukan) dan mengujinya secara individual atau dalam kelompok kecil dengan uji t atau F. Masalahnya adalah Anda mungkin kehilangan beberapa kombinasi variabel untuk mengurangi (atau menambahkan) di mana efek gabungannya (atau tidak-efek) disembunyikan oleh collinearity.
Dengan daya komputasi modern, layak untuk mencocokkan semua 2 ^ 10 = 1024 kemungkinan kombinasi variabel penjelas dan memilih model terbaik dengan salah satu dari sejumlah kriteria yang mungkin, misalnya AIC, BIC, atau daya prediksi (misalnya, kemampuan untuk memprediksi nilai-nilai). bagian uji dari data yang telah Anda pisahkan dari set yang Anda gunakan agar sesuai dengan model Anda). Namun, jika Anda akan menguji (secara implisit atau eksplisit) 1024 model, Anda perlu memikirkan kembali nilai-p Anda dari pendekatan klasik - perlakukan dengan hati-hati ...
sumber
Jika Anda hanya tertarik pada kinerja prediktif, maka mungkin lebih baik menggunakan semua fitur dan menggunakan regresi ridge untuk menghindari pemasangan sampel pelatihan yang berlebihan. Ini pada dasarnya adalah saran yang diberikan dalam lampiran monografi Millar tentang "seleksi subset dalam regresi" , sehingga ia datang dengan silsilah yang masuk akal!
Alasan untuk ini adalah bahwa jika Anda memilih himpunan bagian berdasarkan estimasi kinerja berdasarkan sampel data yang tetap (misalnya AIC, BIC, cross-validation, dll.), Kriteria pemilihan akan memiliki varian terbatas sehingga memungkinkan untuk over-fit kriteria seleksi itu sendiri. Dengan kata lain, untuk mulai dengan saat Anda meminimalkan kriteria seleksi, kinerja generalisasi akan meningkat, namun akan ada titik di mana semakin Anda mengurangi kriteria seleksi, generalisasi yang lebih buruk menjadi. Jika Anda kurang beruntung, Anda dapat dengan mudah berakhir dengan model regresi yang berkinerja lebih buruk daripada yang Anda mulai (yaitu model dengan semua atribut).
Ini sangat mungkin terjadi ketika dataset kecil (sehingga kriteria seleksi memiliki varian tinggi) dan ketika ada banyak pilihan model yang mungkin (misalnya memilih kombinasi fitur). Regularisasi tampaknya kurang rentan terhadap over-fitting karena merupakan parameter skalar yang perlu disesuaikan dan ini memberikan pandangan yang lebih terbatas tentang kompleksitas model, yaitu lebih sedikit derajat kebebasan efektif yang dapat digunakan untuk menyesuaikan kriteria seleksi. .
sumber
Gunakan perpustakaan lompatan. Saat Anda memplot variabel, sumbu y menunjukkan R ^ 2 yang disesuaikan. Anda melihat di mana kotak-kotak berwarna hitam di R ^ 2 tertinggi. Ini akan menunjukkan variabel yang harus Anda gunakan untuk regresi linier berganda Anda.
Contoh anggur di bawah ini:
sumber
leaps
secara eksplisit menghitung 'himpunan bagian terbaik', meskipun tidak menyarankan Anda bagaimana memilih di antara himpunan bagian ukuran yang berbeda. (Itu menjadi masalah antara Anda dan klerus statistik Anda.)leaps
didasarkan pada "kode FORTRAN77 oleh Alan Miller [...] yang dijelaskan lebih detail dalam bukunya 'Subset Selection in Regression'", sebuah buku yang disebutkan oleh Dikran dalam jawaban lain untuk pertanyaan ini :-)Anda juga dapat menggunakan fungsi langkah dalam kriteria informasi Akaike. Contoh di bawah ini. https://en.wikipedia.org/wiki/Akaike_information_criterion
sumber
Mengapa tidak melakukan analisis korelasi Pertama dan kemudian hanya memasukkan dalam regresi yang berhubungan dengan Dv?
sumber
Penasihat saya menawarkan cara lain yang memungkinkan untuk melakukan hal ini. Jalankan semua variabel Anda satu kali, lalu hapus variabel yang gagal memenuhi beberapa ambang (kami menetapkan ambang kami sebagai p <.25). Lanjutkan iterasi seperti itu sampai semua variabel jatuh di bawah nilai 0,25 itu, kemudian laporkan nilai-nilai yang signifikan.
sumber