Apakah menambahkan lebih banyak variabel ke dalam regresi multivariabel mengubah koefisien variabel yang ada?

16

Katakanlah saya memiliki regresi multivariabel (beberapa variabel independen) yang terdiri dari 3 variabel. Masing-masing variabel memiliki koefisien yang diberikan. Jika saya memutuskan untuk memperkenalkan variabel ke-4 dan menjalankan kembali regresi, akankah koefisien dari 3 variabel asli berubah?

Secara lebih luas: dalam regresi multivariabel (beberapa variabel independen), apakah koefisien variabel yang diberikan dipengaruhi oleh koefisien variabel lain?

Lukas Pleva
sumber
1
Harap edit pertanyaannya menjadi lebih tepat. Apakah yang multivariableAnda maksud adalah beberapa variabel independen ("regresi berganda") atau beberapa variabel dependen ("regresi multivarian" atau "MAN (C) OVA")?
ttnphns
1
Jika jawabannya tidak, maka tidak perlu melakukan regresi multivariabel! (kita bisa melakukan banyak yang univariabel)
user603
1
Itu titik wawasan, @ user603, tapi saya pikir mungkin masih ada tempat untuk regresi berganda, dalam hal jika variabel lain secara bermakna terkait dengan respon (meskipun bukan variabel penjelas), mereka dapat mengurangi varians residual yang mengarah ke peningkatan kekuatan & presisi.
gung - Reinstate Monica

Jawaban:

23

Perkiraan parameter dalam model regresi ) akan berubah jika variabel, X j , ditambahkan ke model yaitu: β^iXj

  1. berkorelasi dengan sesuai variabel yang parameter ini, (yang sudah dalam model), danXi
  2. berkorelasi dengan variabel respon, Y

Diperkirakan beta tidak akan berubah ketika variabel baru ditambahkan, jika salah satu di atas tidak berkorelasi. Perhatikan bahwa apakah mereka tidak berkorelasi dalam populasi (yaitu, , atau ρ ( X j , Y ) = 0 ) tidak relevan. Yang penting adalah kedua korelasi sampel tersebut tepat 0ρ(Xi,Xj)=0 ρ(Xj,Y)=00 . Ini pada dasarnya tidak akan pernah menjadi kasus dalam praktik kecuali Anda bekerja dengan data eksperimental di mana variabel dimanipulasi sedemikian rupa sehingga mereka tidak berkorelasi dengan desain.

Perhatikan juga bahwa jumlah perubahan parameter mungkin tidak terlalu berarti (yang sebagian tergantung pada teori Anda). Selain itu, jumlah yang dapat mereka ubah adalah fungsi dari besarnya dua korelasi di atas.

YXiXjXiYXjXi. This means that the value of Xi is biased; this is called the omitted variable bias.

gung - Reinstate Monica
sumber
Very good point to make in that last sentence.
Glen_b -Reinstate Monica
I discuss the flip side of this issue in my answer here: Estimating b1x1+b2x2 instead of b1x1+b2x2+b3x3.
gung - Reinstate Monica
@gung i know your answer is old but i just tried this ideone.com/6CAkSR where i created y and x2 are correlated and x1 is uncorrelated with y. But when i added x1 to the model, the parameter of x2 changed although x1 is uncorrelated with y. you said in your answer "correlated with the response variable, Y An estimated beta will not change when a new variable is added, if either of the above are uncorrelated.". Am i wrong?
floyd
1
It needs to be perfectly uncorrelated, not just not significantly correlated, @floyd. If so, the beta for s1 should not have changed unless there was some error.
gung - Reinstate Monica
@gung thanks so much for replying back. Do you know a way of creating such perfect data? i know that can't happen in real life
floyd
3

It is mathematically possible that the coefficients will not change, but it is unlikely that there will be no change at all with real data, even if all the independent variables are independent of each other. But, when this is the case, the changes (other than in the intercept) will tend to 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

In the real world, though, independent variables are often related to each other. In this case, adding a 4th variable to the equation will change the other coefficients, sometimes by a lot.

Then there are possible interactions.... but that's another question.

Peter Flom - Reinstate Monica
sumber
1

Generally speaking, yes, adding a variable changes the earlier coefficients, almost always.

Indeed, this is essentially the cause of Simpson's paradox, where coefficients can change, even reverse sign, because of omitted covariates.

For that not to happen, we'd need that the new variables were orthogonal to the previous ones. This often happens in designed experiments, but is very unlikely to happen in data where the pattern of the independent variables is unplanned.

Glen_b -Reinstate Monica
sumber