Regresi Linier + perancu

8

Misalkan saya ingin mengakses efek ukuran dan signifikansi antara hasil Y dan variabel X disesuaikan perancu Z .

Pertanyaan saya adalah apakah ada perbedaan untuk menentukan ukuran efek dan signifikansi X antara skenario berikut.

  1. menempatkan variabel dan perancu bersama dalam model regresi linier. Ini model regresi hanya cocok sarana Y ~ X + Z , kemudian menghitung koefisien dan p-nilai dari X .
  2. Dapatkan residu, R dari Y ~ Z , dan kemudian muat model regresi R ~ X , lalu hitung koefisien dan nilai p-nya X (dari R ~ X).

Saya belajar perancu dari sini .

Edit -----

Saya menghargai jawaban @Gordon Smyth. Namun, dari studi simulasi (kode di bawah), di mana saya membandingkan tingkat penemuan yang salah dari metode1, metode2, dan metode3 dari jawaban Gordon Smyth, saya secara mengejutkan menemukan bahwa metode2 memiliki tingkat positif palsu yang cukup rendah.

Saya mengerti bahwa metode 1 adalah "buku teks" yang benar. Saya bertanya-tanya apa sebenarnya yang salah dengan metode2 secara logis? Selain itu, "Semua model salah, tetapi beberapa berguna".

p1 = p2 = p3 = c()
i=0
while(i<10000){
  y = rnorm(10)
  x = rnorm(10)
  c = rnorm(10)


  # method 1
  p1[i] = summary(lm(y~x + c))$coefficients[2,4]
  # method 2
  p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
  # method 3
  p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]


  i = i+1
}


# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623
WCMC
sumber
1
Saya tidak jelas mengapa Anda terkejut bahwa ketiga metode ini melakukan apa yang saya katakan kepada Anda bahwa mereka akan lakukan dalam jawaban saya setahun yang lalu. Saya katakan kepada Anda bahwa metode 2 akan konservatif (yang Anda temukan) dan metode 3 akan anti-konservatif (yang lagi-lagi adalah apa yang Anda temukan). Bagaimanapun, masalah sebenarnya dengan metode 2 Anda hanya muncul ketika X dan Z berkorelasi satu sama lain serta dengan Y. Saya telah memperluas jawaban saya sekarang untuk menjelaskan ini lebih detail. Saya sekarang memberikan contoh numerik yang menunjukkan betapa buruknya metode 2.
Gordon Smyth

Jawaban:

13

Anda perlu menyesuaikan X dan Y untuk perancu

Pendekatan pertama (menggunakan regresi berganda) selalu benar. Pendekatan kedua Anda tidak benar seperti yang telah Anda nyatakan, tetapi dapat dibuat hampir benar dengan sedikit perubahan. Untuk membuat pendekatan kedua benar, Anda harus mundur keduanyaY dan X secara terpisah aktif Z. Saya suka menulisY.Z untuk residu dari regresi Y di Z dan X.Z untuk residu dari regresi X dan Z. Kita bisa mengartikannyaY.Z sebagai Y disesuaikan untuk Z (sama seperti Anda R) dan X.Z sebagai X disesuaikan untuk Z. Anda kemudian dapat mundurY.Z di X.Z.

Dengan perubahan ini, kedua pendekatan akan memberikan koefisien regresi yang sama dan residu yang sama. Namun pendekatan kedua masih akan salah menghitung derajat sisa kebebasann1 dari pada n2 (dimana nadalah jumlah nilai data untuk setiap variabel). Akibatnya, statistik uji untukXdari pendekatan kedua akan sedikit terlalu besar dan nilai-p akan sedikit terlalu kecil. Jika jumlah pengamatann besar, maka kedua pendekatan akan bertemu dan perbedaan ini tidak masalah.

Sangat mudah untuk melihat mengapa tingkat sisa kebebasan dari pendekatan kedua tidak akan tepat. Kedua pendekatan mengalami kemunduranY pada keduanya X dan Z. Pendekatan pertama melakukannya dalam satu langkah sedangkan pendekatan kedua melakukannya dalam dua langkah. Namun pendekatan kedua "lupa" ituY.Z dihasilkan dari regresi pada Z dan mengabaikan untuk mengurangi derajat kebebasan untuk variabel ini.

Plot variabel yang ditambahkan

Sanford Weisberg (Applied Linear Regression, 1985) digunakan untuk merekomendasikan plot Y.Z vs. X.Zdi sebar sebaran. Ini disebut plot variabel tambahan , dan itu memberikan representasi visual yang efektif dari hubungan antaraY dan X setelah disesuaikan untuk Z.

Jika Anda tidak menyesuaikan X maka Anda memperkirakan estimasi koefisien regresi

Pendekatan kedua seperti yang Anda nyatakan sebelumnya, mengalami kemunduran Y.Z di X, terlalu konservatif. Ini akan mengecilkan arti penting hubungan antaraY dan X menyesuaikan untuk Zkarena meremehkan ukuran koefisien regresi. Ini terjadi karena Anda mengalami kemunduranY.Z secara keseluruhan X bukan hanya pada bagian dari X yang independen terhadap Z. Dalam rumus standar untuk koefisien regresi dalam regresi linier sederhana, pembilang (kovarians dariY.Z dengan X) akan benar tetapi penyebutnya (varian dari X) akan terlalu besar. Kovariat yang benarX.Z selalu memiliki varian yang lebih kecil daripada yang dilakukannya X.

Untuk membuat ini tepat, Metode 2 Anda akan memperkirakan estimasi koefisien regresi parsial X oleh faktor 1-r2 dimana r adalah koefisien korelasi Pearson antara X dan Z.

Contoh numerik

Berikut adalah contoh numerik kecil untuk menunjukkan bahwa metode variabel yang ditambahkan mewakili koefisien regresi Y di X dengan benar sedangkan pendekatan kedua Anda (Metode 2) dapat salah sewenang-wenang.

Pertama kita mensimulasikan X, Z dan Y:

> set.seed(20180525)
> Z <- 10*rnorm(10)
> X <- Z+rnorm(10)
> Y <- X+Z

Sini Y=X+Z jadi koefisien regresi yang benar untuk X dan Z keduanya 1 dan mencegat adalah 0.

Kemudian kita membentuk dua vektor residual R (sama seperti saya Y.Z) dan X.Z:

> R <- Y.Z <- residuals(lm(Y~Z))
> X.Z <- residuals(lm(X~Z))

Regresi berganda penuh dengan keduanya X dan Y sebagai prediktor memberikan koefisien regresi yang sebenarnya dengan tepat:

> coef(lm(Y~X+Z))
(Intercept)           X           Z 
   5.62e-16    1.00e+00    1.00e+00 

The variabel menambahkan pendekatan (Metode 3) juga memberikan koefisien untukX tepat benar:

> coef(lm(R~X.Z))
(Intercept)         X.Z 
  -6.14e-17    1.00e+00 

Sebaliknya, Metode 2 Anda menemukan koefisien regresi hanya 0,01:

> coef(lm(R~X))
(Intercept)           X 
    0.00121     0.01170 

Jadi Metode 2 Anda meremehkan ukuran efek sebenarnya sebesar 99%. Faktor di bawah estimasi diberikan oleh korelasi antaraX dan Z:

> 1-cor(X,Z)^2
[1] 0.0117

Untuk melihat semua ini secara visual, yang menambahkan alur variabel dariR vs. X.Z menunjukkan hubungan linier sempurna dengan unit slope, mewakili hubungan marginal sejati antara Y dan X:

Menambahkan plot variabel

Sebaliknya, plot R vs yang tidak disesuaikan Xtidak menunjukkan hubungan sama sekali. Hubungan yang sebenarnya telah sepenuhnya hilang:

Plot yang salah menggunakan X yang tidak dikoreksi

Gordon Smyth
sumber
1
Apakah Anda yakin bahwa kedua pendekatan akan memberikan koefisien regresi yang sama? Jika itu benar maka alih-alih melakukan regresi berganda dengan variabel independen k kita bisa melakukan regresi k dengan variabel independen tunggal dan mendapatkan hasil yang persis sama jauh lebih cepat.
Tomek Tarczynski
1
Saya mungkin melewatkan sesuatu. Ketika saya mencoba untuk mensimulasikan ini saya mendapatkan koefisien yang berbeda untuk X. Kode R di bawah set.seed (1234) k <- 100 x <- runif (k) z <- x + runif (k) y <- 5 * x - 3 * z + runif (k) # x koefisien 5.1252 lm (y ~ x + z) model <- lm (y ~ z) res <- model $ residuals #x koefisien 2.82 model2 <- lm (res ~ x)
Tomek Tarczynski
1
@ TomekTarczynski Kau benar, aku lupa menunjukkan itu X harus mundur pada Zdemikian juga. Saya telah mengedit jawaban saya untuk memperbaikinya.
Gordon Smyth
Hai Gordon, apakah ada yang salah dengan pendekatan kedua selain masalah tingkat kebebasan? misalnya dalam hal logika?
WCMC
Hai Gordon, saya mengedit pertanyaan saya. Saya menghargai jika Anda bisa melihatnya ketika Anda punya waktu.
WCMC