Saya telah melatih model regresi linier, menggunakan serangkaian variabel / fitur. Dan modelnya memiliki kinerja yang baik. Namun, saya menyadari bahwa tidak ada variabel dengan korelasi yang baik dengan variabel yang diprediksi. Bagaimana itu mungkin?
17
Jawaban:
Sepasang variabel mungkin menunjukkan korelasi parsial yang tinggi (korelasi menghitung dampak variabel lain) tetapi korelasi rendah - atau bahkan nol - marjinal (korelasi berpasangan).
Yang berarti bahwa korelasi berpasangan antara respons, y dan beberapa prediktor, x mungkin bernilai kecil dalam mengidentifikasi variabel yang sesuai dengan (linear) nilai "prediktif" di antara sekumpulan variabel lain.
Pertimbangkan data berikut:
Korelasi antara y dan x adalah . Jika saya menggambar garis kuadrat terkecil, itu horisontal sempurna dan R 2 secara alami akan menjadi 0 .0 R2 0
Tetapi ketika Anda menambahkan variabel baru g, yang menunjukkan dari dua kelompok mana observasi berasal, x menjadi sangat informatif:
The dari model regresi linier dengan baik x dan g variabel di dalamnya akan 1.R2
Mungkin saja hal seperti ini terjadi dengan setiap variabel dalam model - bahwa semua memiliki korelasi berpasangan yang kecil dengan respons, namun model dengan mereka semua di sana sangat baik dalam memprediksi respons.
Bacaan tambahan:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
sumber
Saya berasumsi Anda sedang melatih model regresi berganda, di mana Anda memiliki beberapa variabel bebas , X 2 , ..., mengalami regresi pada Y. Jawaban sederhana di sini adalah korelasi berpasangan seperti menjalankan model regresi yang tidak ditentukan spesifik. Dengan demikian, Anda menghilangkan variabel penting.X1 X2
Lebih khusus lagi, ketika Anda menyatakan "tidak ada variabel dengan korelasi yang baik dengan variabel yang diprediksi", sepertinya Anda memeriksa korelasi berpasangan antara setiap variabel independen dengan variabel dependen, Y. Hal ini dimungkinkan ketika membawa penting , informasi baru dan membantu menjernihkan pengganggu antara x 1 dan Y. dengan itu membingungkan, meskipun, kita mungkin tidak melihat korelasi pair-wise linear antara x 1 dan Y. Anda juga mungkin ingin memeriksa hubungan antara korelasi parsial ρ x 1 , y | x 2 dan regresi berganda y = β 1X2 X1 X1 ρx1,y|x2 . Regresi berganda memiliki hubungan yang lebih dekat dengan korelasi parsial daripada korelasi berpasangan, ρ x 1 , y .y=β1X1+β2X2+ϵ ρx1,y
sumber
sumber