Bagaimana mungkin untuk mendapatkan model regresi linier yang baik ketika tidak ada korelasi substansial antara output dan prediktor?

17

Saya telah melatih model regresi linier, menggunakan serangkaian variabel / fitur. Dan modelnya memiliki kinerja yang baik. Namun, saya menyadari bahwa tidak ada variabel dengan korelasi yang baik dengan variabel yang diprediksi. Bagaimana itu mungkin?

Zaratruta
sumber
3
Ini adalah jawaban yang bagus, tetapi pertanyaannya kehilangan banyak perincian yang berusaha diisi oleh jawaban itu. Pertanyaan terbesar dalam pikiran saya adalah apa yang Anda maksud dengan "korelasi yang baik."
DHW

Jawaban:

35

Sepasang variabel mungkin menunjukkan korelasi parsial yang tinggi (korelasi menghitung dampak variabel lain) tetapi korelasi rendah - atau bahkan nol - marjinal (korelasi berpasangan).

Yang berarti bahwa korelasi berpasangan antara respons, y dan beberapa prediktor, x mungkin bernilai kecil dalam mengidentifikasi variabel yang sesuai dengan (linear) nilai "prediktif" di antara sekumpulan variabel lain.

Pertimbangkan data berikut:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Korelasi antara y dan x adalah . Jika saya menggambar garis kuadrat terkecil, itu horisontal sempurna dan R 2 secara alami akan menjadi 0 .0R20

Tetapi ketika Anda menambahkan variabel baru g, yang menunjukkan dari dua kelompok mana observasi berasal, x menjadi sangat informatif:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

The dari model regresi linier dengan baik x dan g variabel di dalamnya akan 1.R2

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

Mungkin saja hal seperti ini terjadi dengan setiap variabel dalam model - bahwa semua memiliki korelasi berpasangan yang kecil dengan respons, namun model dengan mereka semua di sana sangat baik dalam memprediksi respons.

Bacaan tambahan:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b -Reinstate Monica
sumber
Bisakah perilaku ini terjadi dalam model linier sejati? Di sini, hubungan antara warna (g = 0/1) dan respons y tampaknya tidak linier. Namun, apa yang bisa terjadi adalah bahwa model tanpa g bisa (sewenang-wenang?) Menurunkan dari R 2 dari model dengan g . R2gR2g
Vimal
Astaga, saya harus melihat model dari dekat :) . Gosok pertanyaan itu! y=x41g
Vimal
Itu memang model yang dengannya respons diciptakan; tetapi Anda dapat segera melihatnya linier hanya dengan membayangkan mengangkat titik biru keluar satu unit sewenang-wenang (ke arah Anda dari permukaan layar, sepanjang arah sumbu "g" yang baru) dan melihat sebuah pesawat masuk melalui enam titik.
Glen_b -Reinstate Monica
1
Dalam regresi, variabel X dikondisikan dan mungkin sering dikontrol, jadi "independensi" biasanya tidak seperti yang dicari. Eksperimen yang dirancang di luar, prediktor independen hampir tidak pernah terlihat dalam kasus apa pun, dan jika Anda memang merancang eksperimen, prediktor bukanlah variabel acak sehingga "independensi" (dalam pengertian statistik) bukanlah yang akan Anda lihat - lebih tepatnya sesuatu seperti ortogonalitas timbal balik, mungkin. ...
ctd
1
ctd ... Jika Anda benar-benar melakukan kemandirian statistik (mutual / p-variate) dari semua prediktor, maka Anda tidak akan mendapatkan nol koefisien tepat pada regresi univariat seperti itu, tetapi Anda juga tidak perlu pemisahan lengkap seperti contoh di atas .
Glen_b -Reinstate Monica
2

Saya berasumsi Anda sedang melatih model regresi berganda, di mana Anda memiliki beberapa variabel bebas , X 2 , ..., mengalami regresi pada Y. Jawaban sederhana di sini adalah korelasi berpasangan seperti menjalankan model regresi yang tidak ditentukan spesifik. Dengan demikian, Anda menghilangkan variabel penting.X1X2

Lebih khusus lagi, ketika Anda menyatakan "tidak ada variabel dengan korelasi yang baik dengan variabel yang diprediksi", sepertinya Anda memeriksa korelasi berpasangan antara setiap variabel independen dengan variabel dependen, Y. Hal ini dimungkinkan ketika membawa penting , informasi baru dan membantu menjernihkan pengganggu antara x 1 dan Y. dengan itu membingungkan, meskipun, kita mungkin tidak melihat korelasi pair-wise linear antara x 1 dan Y. Anda juga mungkin ingin memeriksa hubungan antara korelasi parsial ρ x 1 , y | x 2 dan regresi berganda y = β 1X2X1X1ρx1,y|x2 . Regresi berganda memiliki hubungan yang lebih dekat dengan korelasi parsial daripada korelasi berpasangan, ρ x 1 , y .y=β1X1+β2X2+ϵρx1,y

Ray Yang
sumber
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Akumulasi
sumber