Beberapa hari yang lalu, seorang psikolog-peneliti saya mengatakan kepada saya tentang metodenya untuk memilih variabel ke model regresi linier. Saya kira itu tidak baik, tetapi saya perlu meminta orang lain untuk memastikan. Metodenya adalah:
Lihatlah matriks korelasi antara semua variabel (termasuk Variabel Dependen Y) dan pilih prediktor Xs tersebut, yang paling berkorelasi dengan Y.
Dia tidak menyebutkan kriteria apa pun. T: Apakah dia benar?
[Saya pikir metode seleksi ini salah, karena banyak hal, seperti teori yang mengatakan prediktor mana yang harus dipilih, atau bahkan menghilangkan bias variabel (OVB).]
regression
correlation
model-selection
Lil'Lobster
sumber
sumber
Jawaban:
Jika, karena alasan tertentu, Anda hanya akan memasukkan satu variabel dalam model Anda, lalu memilih prediktor yang memiliki korelasi tertinggi dengan memiliki beberapa keunggulan. Dari model regresi yang mungkin dengan hanya satu prediktor, maka model ini adalah yang dengan koefisien regresi terstandarisasi tertinggi dan juga (karena adalah kuadrat dalam regresi linier sederhana ) koefisien determinasi tertinggi .R 2 ry R2 r
Tetapi tidak jelas mengapa Anda ingin membatasi model regresi Anda menjadi satu prediktor jika Anda memiliki beberapa data. Seperti yang disebutkan dalam komentar, hanya melihat korelasi tidak berfungsi jika model Anda mungkin menyertakan beberapa variabel. Misalnya, dari matriks sebar ini, Anda mungkin berpikir bahwa prediktor untuk yang harus Anda sertakan dalam model Anda adalah (korelasi 0,824) dan (korelasi 0,782) tetapi (korelasi 0,134) bukan merupakan prediktor yang berguna.x 1 x 2 x 3y x1 x2 x3
Tapi Anda salah - pada kenyataannya dalam contoh ini, tergantung pada dua variabel independen, dan , tetapi tidak secara langsung pada . Namun sangat berkorelasi dengan , yang mengarah ke korelasi dengan juga. Melihat korelasi antara dan dalam isolasi, ini mungkin menyarankan adalah prediktor yang baik dari . Tetapi begitu efek dari secara parsial dikeluarkan dengan memasukkan dalam model, tidak ada hubungan seperti itu yang tersisa.x 1 x 3 x 2 x 2 x 1 y y x 2 x 2 y x 1 x 1y x1 x3 x2 x2 x1 y y x2 x2 y x1 x1
Ukuran sampel ini cukup besar untuk mengatasi masalah multikolinieritas dalam estimasi koefisien untuk dan . Koefisien diperkirakan mendekati nol, dan dengan nilai p tidak signifikan . Koefisien sebenarnya adalah nol. Intersepsi dan lereng untuk dan diperkirakan mendekati nilai sebenarnya masing-masing 5, 3 dan 0,5. Perhatikan bahwa ditemukan dengan benar sebagai prediktor yang signifikan, meskipun ini kurang jelas dari matriks pencar.x1 x2 x2 x1 x3 x3
Dan ini adalah contoh yang bahkan lebih buruk:
Di sini tergantung pada prediktor (tidak berkorelasi) , dan - sebenarnya kemiringan regresi sebenarnya adalah satu untuk masing-masing. Itu tidak tergantung pada variabel keempat, , tetapi karena cara variabel tersebut berkorelasi dengan masing-masing , dan , itu akan menjadi yang menonjol dalam matriks sebar dan matriks korelasi (korelasinya dengan adalah 0,583, sementara yang lain di bawah 0,4). Jadi memilih variabel dengan korelasi tertinggi dengan sebenarnya dapat menemukan variabel yang tidak termasuk dalam model sama sekali.y x1 x2 x3 x4 x1 x2 x3 x4 y y
sumber
Anda dapat menjalankan analisis regresi bertahap dan membiarkan perangkat lunak memilih variabel berdasarkan nilai F. Anda juga bisa melihat nilai Adjusted R ^ 2 ketika Anda menjalankan regresi setiap kali, untuk melihat apakah menambahkan variabel baru yang berkontribusi pada model Anda. Model Anda mungkin memiliki masalah multikolinieritas jika Anda hanya menggunakan matriks korelasi dan memilih variabel dengan korelasi kuat. Semoga ini membantu!
sumber