Dalam regresi linier, mengapa kita harus memasukkan istilah kuadrat ketika kita hanya tertarik pada istilah interaksi?

10

Misalkan saya tertarik pada model regresi linier, untuk , karena saya ingin melihat apakah interaksi antara kedua kovariat berpengaruh pada Y.

Yi=β0+β1x1+β2x2+β3x1x2

Dalam catatan kursus seorang profesor (yang saya tidak punya kontak dengan), itu menyatakan: Ketika termasuk istilah interaksi, Anda harus memasukkan istilah derajat kedua mereka. yaitu harus dimasukkan dalam regresi.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Mengapa kita harus memasukkan istilah tingkat kedua ketika kita hanya tertarik pada interaksi?

Bodoh126
sumber
7
Jika model memiliki , itu harus menyertakan dan . Tetapi dan adalah opsional. x 1 x 2 x 2 1 x 2 2x1x2x1x2x12x22
user158565
6
Pendapat profesor Anda tampaknya tidak biasa. Ini mungkin berasal dari latar belakang khusus atau serangkaian pengalaman, karena "seharusnya" jelas bukan persyaratan universal. Anda mungkin menemukan stats.stackexchange.com/questions/11009 menarik.
whuber
@ user158565 hai! Bolehkah saya bertanya mengapa kita juga harus memasukkan dan ? Saya awalnya tidak memikirkan itu, tetapi sekarang Anda menyebutkannya ..! x 2x1x2
fool126
@whuber hai! Terima kasih untuk tautannya! Saya pikir memasukkan efek utama masuk akal, tetapi saya mengalami kesulitan untuk memperluas itu dengan harus memasukkan persyaratan urutan kedua. // user158565 Saya pikir tautan di atas menjawab itu, terima kasih!
fool126
Bisakah Anda memposting tautan ke data?
James Phillips

Jawaban:

8

Itu tergantung pada tujuan inferensi. Jika Anda ingin membuat kesimpulan apakah ada interaksi, misalnya, dalam konteks sebab akibat (atau, lebih umum, jika Anda ingin menginterpretasikan koefisien interaksi), rekomendasi dari profesor Anda ini memang masuk akal, dan itu berasal dari fakta bahwa kesalahan spesifikasi bentuk fungsional dapat menyebabkan kesimpulan yang salah tentang interaksi .

Berikut adalah contoh sederhana di mana tidak ada istilah interaksi antara dan dalam persamaan struktural , namun, jika Anda tidak menyertakan istilah kuadrat , Anda akan salah menyimpulkan bahwa berinteraksi dengan padahal sebenarnya tidak t.x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Ini dapat ditafsirkan sebagai kasus bias variabel yang dihilangkan, dan di sini adalah variabel yang dihilangkan. Jika Anda kembali dan memasukkan istilah kuadrat dalam regresi Anda, interaksi yang tampak menghilang.x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Tentu saja, alasan ini tidak hanya berlaku untuk istilah kuadrat, tetapi salah spesifikasi bentuk fungsional secara umum. Tujuannya di sini adalah untuk memodelkan fungsi harapan bersyarat secara tepat untuk menilai interaksi. Jika Anda membatasi diri untuk pemodelan dengan regresi linier, maka Anda harus memasukkan istilah-istilah nonlinier ini secara manual. Tetapi alternatifnya adalah dengan menggunakan pemodelan regresi yang lebih fleksibel, seperti misalnya regresi ridge kernel .

Carlos Cinelli
sumber
Terima kasih @CarlosCinelli, sebagai kesimpulan, apakah Anda mengatakan bahwa kami harus menyertakan ketentuan dengan derajat yang sama - untuk memperhitungkan potensi kesalahan spesifikasi bentuk fungsional - dan biarkan regresi menentukan persyaratan mana yang signifikan?
fool126
3
@KevinC pertanyaan utama di sini adalah: apakah Anda ingin menafsirkan istilah interaksi? Jika Anda melakukannya, maka kesalahan spesifikasi bentuk fungsional adalah masalah nyata. Menambahkan istilah kuadrat hanyalah salah satu cara sederhana untuk menangkap non-linearitas, tetapi masalah umumnya adalah memodelkan fungsi harapan bersyarat dengan tepat.
Carlos Cinelli
1
Harap jangan memasukkan rm(list=ls())kode yang diposting di sini! Jika orang hanya menyalin & menempel dan menjalankan kode, mereka bisa mendapatkan kejutan ... Saya menghapusnya untuk saat ini.
kjetil b halvorsen
3

X1X2

Model pertama dapat diekspresikan kembali seperti ini:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

X1YX2X1X2X1YX2

Model kedua dapat diekspresikan kembali seperti ini:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

X1YX2X1X12X12X2X1X2

X1YX2

X1X2X1X2X12X22

Perhatikan bahwa saya menyederhanakan notasi yang Anda gunakan untuk konsistensi dan juga membuat istilah kesalahannya eksplisit di kedua model.

Isabella Ghement
sumber
2
Hai @IsabellaGhement, terima kasih atas penjelasannya. Singkatnya, benar-benar tidak ada "aturan" di mana kita harus menambahkan istilah kuadrat jika kita memasukkan istilah interaksi. Pada akhirnya, kembali ke asumsi yang kami buat tentang model kami, dan hasil analisis kami (mis., Plot residual). Apakah ini benar? Terima kasih lagi :)!
fool126
2
Benar, Kevin! Tidak ada "aturan", karena setiap kumpulan data berbeda dan juga dimaksudkan untuk menjawab pertanyaan yang berbeda. Itulah mengapa penting bagi kita untuk menyadari bahwa setiap model yang kita cocok dengan kumpulan data menyiratkan asumsi yang berbeda, yang perlu didukung oleh data agar kita mempercayai hasil model. Plot diagnostik model (misalnya, plot residual vs nilai yang dipasang) membantu kami memverifikasi sejauh mana - jika ada - data mendukung asumsi model.
Isabella Ghement
1
@KevinC: Luar Biasa! Selamat berlibur untukmu juga, Kevin! ☃🎉🎁🎈
Isabella Ghement