Bagaimana menambahkan IV ke-2 membuat IV ke-1 signifikan?

64

Saya punya pertanyaan yang mungkin sederhana, tapi itu membingungkan saya sekarang, jadi saya berharap Anda dapat membantu saya.

Saya memiliki model regresi kuadrat terkecil, dengan satu variabel independen dan satu variabel dependen. Hubungannya tidak signifikan. Sekarang saya menambahkan variabel independen kedua. Sekarang hubungan antara variabel independen pertama dan variabel dependen menjadi signifikan.

Bagaimana cara kerjanya? Ini mungkin menunjukkan beberapa masalah dengan pemahaman saya, tetapi bagi saya, tapi saya tidak melihat bagaimana menambahkan variabel independen kedua ini dapat membuat yang pertama signifikan.

EvKohl
sumber
4
Ini adalah topik yang sangat banyak dibahas di situs ini. Ini mungkin karena kolinearitas. Lakukan pencarian untuk "collinearity" dan Anda akan menemukan lusinan utas yang relevan. Saya sarankan membaca beberapa jawaban untuk stats.stackexchange.com/questions/14500/…
Makro
3
kemungkinan duplikat dari prediktor signifikan menjadi tidak signifikan dalam regresi logistik berganda . Ada banyak utas yang secara efektif merupakan duplikat - yang merupakan yang paling dekat yang dapat saya temukan dalam waktu kurang dari dua menit
Makro
3
Ini adalah semacam masalah yang berlawanan dengan yang ada di utas @macro yang baru ditemukan, tetapi alasannya sangat mirip.
Peter Flom - Reinstate Monica
3
@ Macro, saya pikir Anda benar bahwa ini adalah duplikat, tapi saya pikir masalahnya di sini sedikit berbeda dari 2 pertanyaan di atas. OP tidak merujuk pada signifikansi model-sebagai-keseluruhan, atau variabel menjadi tidak signifikan dengan tambahan IV. Saya curiga ini bukan tentang multikolinearitas, tetapi tentang kekuatan atau kemungkinan penindasan.
gung - Reinstate Monica
3
juga, @ung, penindasan dalam model linier hanya terjadi ketika ada collinearity - perbedaannya adalah tentang interpretasi, jadi "ini bukan tentang multikolinieritas tetapi tentang kemungkinan penindasan" membuat dikotomi yang menyesatkan
Makro

Jawaban:

78

Meskipun collinearity (dari variabel prediktor) adalah penjelasan yang mungkin, saya ingin menyarankan itu bukan penjelasan yang menerangi karena kita tahu collinearity terkait dengan "informasi umum" di antara para prediktor, sehingga tidak ada yang misterius atau kontra-intuitif tentang sisi tersebut. efek dari memperkenalkan prediktor berkorelasi kedua ke dalam model.

Mari kita perhatikan kasus dua prediktor yang benar-benar ortogonal : sama sekali tidak ada kolinearitas di antara mereka. Perubahan signifikansi yang luar biasa masih bisa terjadi.

Tentukan variabel prediktor dan X 2 dan biarkan Y beri nama predictand. Regresi Y terhadap X 1 akan gagal menjadi signifikan ketika variasi Y sekitar mean tidak lumayan berkurang ketika X 1 digunakan sebagai variabel independen. Ketika variasi itu sangat terkait dengan variabel kedua X 2 , situasi berubah. Ingatlah bahwa regresi berganda Y terhadap X 1 dan X 2 setara denganX1X2YYX1YX1X2YX1X2

  1. Kemunduran dan X 1 secara terpisah terhadap X 2 .YX1X2

  2. Regres residu terhadap residu X 1 .YX1

Residual dari langkah pertama telah menghapus pengaruh . Ketika X 2 berkorelasi erat dengan Y , ini dapat mengekspos sejumlah kecil variasi yang sebelumnya telah disembunyikan. Jika ini variasi dikaitkan dengan X 1 , kita memperoleh hasil yang signifikan.X2X2YX1


Semua ini mungkin diklarifikasi dengan contoh nyata. Untuk memulai, mari kita gunakan Runtuk menghasilkan dua variabel independen ortogonal bersama dengan beberapa kesalahan acak independen :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

( svdLangkah ini memastikan dua kolom matriks x(mewakili dan X 2 ) adalah ortogonal, mengesampingkan collinearity sebagai penjelasan yang mungkin dari setiap hasil selanjutnya.)X1X2

Selanjutnya, buat sebagai kombinasi linear dari X dan kesalahan. Saya telah menyesuaikan koefisien untuk menghasilkan perilaku kontra-intuitif:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

Ini adalah realisasi dari model dengan n = 32 kasus.YiidN(0.05X1+1.00X2,0.012)n=32

Lihatlah dua regresi yang dimaksud. Pertama , mundur terhadap X 1 saja:YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

Nilai p tinggi 0,710 menunjukkan bahwa sama sekali tidak signifikan.X1

Selanjutnya , mundur terhadap X 1 dan X 2 :YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Tiba-tiba, di hadapan , X 1 adalah sangat signifikan, seperti yang ditunjukkan oleh mendekati nol p-nilai untuk kedua variabel.X2X1

Kita dapat memvisualisasikan perilaku ini dengan cara matriks sebar dari variabel , X 2 , dan Y bersama dengan residual digunakan dalam karakterisasi dua langkah regresi berganda di atas. Karena X 1 dan X 2 bersifat ortogonal, residu X 1 akan sama dengan X 1 dan karenanya tidak perlu digambar ulang. Kami akan menyertakan residu Y terhadap X 2 dalam matriks sebar, memberikan gambar ini:X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Berikut ini adalah rendernya (dengan sedikit prettification):

SPM

Matriks grafis ini memiliki empat baris dan empat kolom, yang akan saya hitung mundur dari atas dan dari kiri ke kanan.

Memperhatikan:

  • (X1,X2)

  • (X1,Y)YX1ρ0.07

  • (X2,Y)Y0.996

  • YX2

    • YX2

    • X1ρ=0.80X2

    • X2

    • Yρ=0.09YX1

X10.068950.05X1X2

whuber
sumber
X1X2X2X1X1X2
n=32
23

Saya pikir masalah ini telah dibahas sebelumnya di situs ini secara menyeluruh, jika Anda tahu di mana mencarinya. Jadi saya mungkin akan menambahkan komentar nanti dengan beberapa tautan ke pertanyaan lain, atau dapat mengedit ini untuk memberikan penjelasan yang lebih lengkap jika saya tidak dapat menemukannya.

Ada dua kemungkinan dasar: Pertama, IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal. Kemungkinan kedua adalah bahwa Anda memiliki variabel penekan. Ini adalah topik yang sangat berlawanan dengan intuisi, tetapi Anda dapat menemukan beberapa info di sini *, di sini , atau utas CV yang luar biasa ini .

* Perhatikan bahwa Anda perlu membaca semua jalan ke bawah untuk sampai ke bagian yang menjelaskan variabel penekan, Anda bisa langsung beralih ke sana, tetapi Anda akan lebih baik dilayani dengan membaca semuanya.


Sunting: seperti yang dijanjikan, saya menambahkan penjelasan yang lebih lengkap tentang poin saya mengenai bagaimana IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal. @whuber menambahkan contoh yang mengesankan, tetapi saya pikir saya mungkin menambahkan contoh gratis yang menjelaskan fenomena ini dengan cara yang berbeda, yang dapat membantu beberapa orang memahami fenomena lebih jelas. Selain itu, saya menunjukkan bahwa IV kedua tidak harus lebih kuat terkait (walaupun, dalam praktiknya, hampir selalu akan terjadi fenomena ini).

tFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

y^x1ix¯2ix1x2x2x¯2 x2untuk beberapa pengamatan, dalam hal ini tidak ada penyesuaian yang harus dilakukan, tetapi ini biasanya tidak akan terjadi. Perhatikan bahwa metode ini untuk membuat tabel ANOVA hanya valid jika semua variabel ortogonal; ini adalah kasus yang sangat disederhanakan yang dibuat untuk tujuan ekspositori.

x2yy¯x1x2SSx1x2SSx1SSresdfx2dfres

Fx1MSx1MSresMSx1MSresx2x2Ftx2x2MSresFx1p

x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Ini diakui tidak seperti contoh dramatis di pos @ whuber, tetapi mereka dapat membantu orang memahami apa yang sedang terjadi di sini.

gung - Reinstate Monica
sumber
1
(+1) untuk "Pertama, IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal", yang @whuber memberikan contoh yang bagus tentang
Makro
(+1) Pada awalnya Anda memberi tiga tautan. Yang pertama (yang eksternal) sayangnya rusak (404 kesalahan). Terlepas dari itu: Anda mengatakan bahwa ada "dua kemungkinan dasar": tambahan IV kedua meningkatkan kekuatan untuk menguji IV pertama (dan ini persis situasi yang dijelaskan oleh Whuber dan oleh Wayne dalam jawaban mereka) atau ada variabel penekan (yang mana, btw? yang pertama atau yang kedua?). Pertanyaan saya: apakah ini benar-benar dua situasi yang berbeda? Atau pada dasarnya hal yang sama, mungkin dipandang sedikit berbeda? Akan lebih bagus jika Anda bisa mengembangkannya.
Amoeba berkata Reinstate Monica
@amoeba, ttnphns berbicara tentang hal itu di sini: Efek penekanan dalam regresi: definisi dan penjelasan visual / penggambaran , & saya berbicara tentang penekanan di sini: X dan Y tidak berkorelasi, tetapi X adalah prediktor signifikan Y dalam regresi berganda. Apa artinya?
gung - Reinstate Monica
@ung, terima kasih atas jawabannya. Ttnphns dimulai dengan memberikan tautan ke makalah yang membahas penindasan dan beberapa efek terkait lainnya, dan makalah ini mengklaim bahwa "definisi variabel penekan yang paling umum diterima (Tzelgov & Henik, 1991) adalah variabel yang meningkatkan validitas prediktif. dari variabel lain (atau set variabel) dengan dimasukkannya dalam persamaan regresi "". Ini terdengar persis seperti apa yang ditanyakan OP di sini, itu sebabnya saya bingung dengan Anda mengatakan bahwa mungkin ada dua alasan berbeda .
Amoeba berkata Reinstate Monica
1
@amoeba, intinya adalah Anda memiliki 2 mekanisme berbeda. Artinya, Anda memiliki 2 DAG mendasar yang berbeda. Manifestasi luar mungkin serupa, & kekuatan tambahan mungkin lebih atau kurang, tetapi alasan mengapa variabel 2 membantu berbeda b / c hubungan variabel 2 dengan x1 & y berbeda. Jika tidak jelas, Anda mungkin perlu mengajukan pertanyaan baru; sulit untuk melakukan terlalu banyak komentar.
gung - Reinstate Monica
17

Rasanya seperti pertanyaan OP dapat ditafsirkan dalam dua cara berbeda:

  1. Secara matematis, bagaimana OLS bekerja, sehingga menambahkan variabel independen dapat mengubah hasil dengan cara yang tidak terduga?

  2. Bagaimana cara memodifikasi model saya dengan menambahkan satu variabel mengubah efek variabel lain yang independen dalam model?

Ada beberapa jawaban bagus untuk pertanyaan # 1. Dan pertanyaan # 2 mungkin sangat jelas bagi para ahli sehingga mereka menganggap OP harus mengajukan pertanyaan # 1 sebagai gantinya. Tapi saya pikir pertanyaan # 2 layak mendapat jawaban, yang akan menjadi seperti:

Mari kita mulai dengan sebuah contoh. Katakan bahwa Anda memiliki ketinggian, usia, jenis kelamin, dll, dari sejumlah anak, dan Anda ingin melakukan regresi untuk memprediksi tinggi badan mereka.

Anda mulai dengan model naif yang menggunakan gender sebagai variabel independen. Dan itu tidak signifikan secara statistik. (Bagaimana mungkin, Anda mencampurkan anak usia 3 tahun dan remaja.)

Kemudian Anda menambahkan usia dan tiba-tiba bukan hanya usia yang signifikan, tetapi juga jenis kelamin. Bagaimana bisa?

Tentu saja, dalam contoh saya, Anda dapat dengan jelas melihat bahwa usia adalah faktor penting dalam ketinggian anak / remaja. Mungkin faktor terpenting yang Anda miliki datanya. Gender juga penting, terutama untuk anak-anak yang lebih besar dan orang dewasa, tetapi jenis kelamin saja adalah model yang buruk tentang seberapa tinggi seorang anak.

Usia plus jenis kelamin adalah model yang masuk akal (meskipun, tentu saja disederhanakan) yang memadai untuk tugas itu. Jika Anda menambahkan data lain - interaksi usia dan jenis kelamin, diet, tinggi orang tua, dll - Anda bisa membuat model yang lebih baik, yang tentu saja masih akan disederhanakan dibandingkan dengan sejumlah faktor yang benar-benar menentukan tinggi anak, tetapi sekali lagi semua model adalah versi realitas yang disederhanakan. (Peta dunia dengan skala 1: 1 tidak terlalu berguna untuk seorang musafir.)

Model asli Anda (hanya gender) terlalu disederhanakan - sangat disederhanakan sehingga pada dasarnya rusak. Tetapi itu tidak berarti bahwa gender tidak berguna dalam model yang lebih baik.

EDIT: menambahkan saran gung ulang: istilah interaksi usia dan jenis kelamin.

Wayne
sumber
1
+1, nb, usia & jenis kelamin mungkin akan membutuhkan istilah interaksi juga.
gung - Reinstate Monica
1
1 Itu contoh yang bagus karena sangat sederhana dan intuitif jelas, dan pada cocok sama persis dengan situasi yang dijelaskan lebih detail tetapi hanya secara abstrak oleh @whuber dalam jawabannya diterima di sini.
Amoeba berkata Reinstate Monica
10

Utas ini sudah memiliki tiga jawaban bagus (masing-masing +1). Jawaban saya adalah komentar dan ilustrasi yang diperluas ke titik yang dibuat oleh @gung (yang membuat saya perlu waktu untuk mengerti):

Ada dua kemungkinan dasar: Pertama, IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal. Kemungkinan kedua adalah bahwa Anda memiliki variabel penekan.

x1x2ynRnyx1x2(dengan "hat matrix" hanya menjadi proyektor). Pembaca yang tidak terbiasa dengan pendekatan ini dapat melihat misalnya dalam Elemen Pembelajaran Statistik , Bagian 3.2, atau di banyak buku lain.

"Peningkatan"

Gambar berikut menunjukkan kedua kemungkinan yang terdaftar oleh @gung. Pertimbangkan hanya bagian biru pada awalnya (yaitu abaikan semua garis merah):

Peningkatan dan penindasan

x1x2Xyy^

x2yx1α90yx1x1

x2x1x2x1x2x2yβα90x1

Cara lain untuk mengatakannya adalah bahwa tes tersebut sekarang membandingkan panjang OF ke OG, dan bukan dengan OC seperti sebelumnya; OF kecil dan "tidak signifikan" dibandingkan dengan OC, tetapi cukup besar untuk menjadi "signifikan" dibandingkan dengan OG.

Ini adalah persis situasi yang disajikan oleh @whuber, @gung, dan @Wayne dalam jawaban mereka. Saya tidak tahu apakah efek ini memiliki nama standar dalam literatur regresi, jadi saya akan menyebutnya "peningkatan".

Penekanan

α=90β=90x1

Tidak demikian dalam penindasan.

x3x1x2x3Xx1x3x1Xy

x1x1y

amuba kata Reinstate Monica
sumber
1
Saya menemukan jawaban Anda sebagai yang termudah untuk dipahami dengan bantuan interpretasi geometris. Hebat!
zsljulius
1
α=0yx1yx1cor(x1,y)=1x1yyx1
qoheleth
α=90