Misalkan saya ingin mengakses efek ukuran dan signifikansi antara hasil Y dan variabel X disesuaikan perancu Z .
Pertanyaan saya adalah apakah ada perbedaan untuk menentukan ukuran efek dan signifikansi X antara skenario berikut.
- menempatkan variabel dan perancu bersama dalam model regresi linier. Ini model regresi hanya cocok sarana Y ~ X + Z , kemudian menghitung koefisien dan p-nilai dari X .
- Dapatkan residu, R dari Y ~ Z , dan kemudian muat model regresi R ~ X , lalu hitung koefisien dan nilai p-nya X (dari R ~ X).
Saya belajar perancu dari sini .
Edit -----
Saya menghargai jawaban @Gordon Smyth. Namun, dari studi simulasi (kode di bawah), di mana saya membandingkan tingkat penemuan yang salah dari metode1, metode2, dan metode3 dari jawaban Gordon Smyth, saya secara mengejutkan menemukan bahwa metode2 memiliki tingkat positif palsu yang cukup rendah.
Saya mengerti bahwa metode 1 adalah "buku teks" yang benar. Saya bertanya-tanya apa sebenarnya yang salah dengan metode2 secara logis? Selain itu, "Semua model salah, tetapi beberapa berguna".
p1 = p2 = p3 = c()
i=0
while(i<10000){
y = rnorm(10)
x = rnorm(10)
c = rnorm(10)
# method 1
p1[i] = summary(lm(y~x + c))$coefficients[2,4]
# method 2
p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
# method 3
p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]
i = i+1
}
# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623
sumber
Jawaban:
Anda perlu menyesuaikan X dan Y untuk perancu
Pendekatan pertama (menggunakan regresi berganda) selalu benar. Pendekatan kedua Anda tidak benar seperti yang telah Anda nyatakan, tetapi dapat dibuat hampir benar dengan sedikit perubahan. Untuk membuat pendekatan kedua benar, Anda harus mundur keduanyaY dan X secara terpisah aktif Z . Saya suka menulisY. Z untuk residu dari regresi Y di Z dan X. Z untuk residu dari regresi X dan Z . Kita bisa mengartikannyaY. Z sebagai Y disesuaikan untuk Z (sama seperti Anda R ) dan X. Z sebagai X disesuaikan untuk Z . Anda kemudian dapat mundurY. Z di X. Z .
Dengan perubahan ini, kedua pendekatan akan memberikan koefisien regresi yang sama dan residu yang sama. Namun pendekatan kedua masih akan salah menghitung derajat sisa kebebasann - 1 dari pada n - 2 (dimana n adalah jumlah nilai data untuk setiap variabel). Akibatnya, statistik uji untukX dari pendekatan kedua akan sedikit terlalu besar dan nilai-p akan sedikit terlalu kecil. Jika jumlah pengamatann besar, maka kedua pendekatan akan bertemu dan perbedaan ini tidak masalah.
Sangat mudah untuk melihat mengapa tingkat sisa kebebasan dari pendekatan kedua tidak akan tepat. Kedua pendekatan mengalami kemunduranY pada keduanya X dan Z . Pendekatan pertama melakukannya dalam satu langkah sedangkan pendekatan kedua melakukannya dalam dua langkah. Namun pendekatan kedua "lupa" ituY. Z dihasilkan dari regresi pada Z dan mengabaikan untuk mengurangi derajat kebebasan untuk variabel ini.
Plot variabel yang ditambahkan
Sanford Weisberg (Applied Linear Regression, 1985) digunakan untuk merekomendasikan plotY. Z vs. X. Z di sebar sebaran. Ini disebut plot variabel tambahan , dan itu memberikan representasi visual yang efektif dari hubungan antaraY dan X setelah disesuaikan untuk Z .
Jika Anda tidak menyesuaikan X maka Anda memperkirakan estimasi koefisien regresi
Pendekatan kedua seperti yang Anda nyatakan sebelumnya, mengalami kemunduranY. Z di X , terlalu konservatif. Ini akan mengecilkan arti penting hubungan antaraY dan X menyesuaikan untuk Z karena meremehkan ukuran koefisien regresi. Ini terjadi karena Anda mengalami kemunduranY. Z secara keseluruhan X bukan hanya pada bagian dari X yang independen terhadap Z . Dalam rumus standar untuk koefisien regresi dalam regresi linier sederhana, pembilang (kovarians dariY. Z dengan X ) akan benar tetapi penyebutnya (varian dari X ) akan terlalu besar. Kovariat yang benarX. Z selalu memiliki varian yang lebih kecil daripada yang dilakukannya X .
Untuk membuat ini tepat, Metode 2 Anda akan memperkirakan estimasi koefisien regresi parsialX oleh faktor 1 -r2 dimana r adalah koefisien korelasi Pearson antara X dan Z .
Contoh numerik
Berikut adalah contoh numerik kecil untuk menunjukkan bahwa metode variabel yang ditambahkan mewakili koefisien regresiY di X dengan benar sedangkan pendekatan kedua Anda (Metode 2) dapat salah sewenang-wenang.
Pertama kita mensimulasikanX , Z dan Y :
SiniY= X+ Z jadi koefisien regresi yang benar untuk X dan Z keduanya 1 dan mencegat adalah 0.
Kemudian kita membentuk dua vektor residualR (sama seperti saya Y. Z ) dan X. Z :
Regresi berganda penuh dengan keduanyaX dan Y sebagai prediktor memberikan koefisien regresi yang sebenarnya dengan tepat:
The variabel menambahkan pendekatan (Metode 3) juga memberikan koefisien untukX tepat benar:
Sebaliknya, Metode 2 Anda menemukan koefisien regresi hanya 0,01:
Jadi Metode 2 Anda meremehkan ukuran efek sebenarnya sebesar 99%. Faktor di bawah estimasi diberikan oleh korelasi antaraX dan Z :
Untuk melihat semua ini secara visual, yang menambahkan alur variabel dariR vs. X. Z menunjukkan hubungan linier sempurna dengan unit slope, mewakili hubungan marginal sejati antara Y dan X :
Sebaliknya, plotR vs yang tidak disesuaikan X tidak menunjukkan hubungan sama sekali. Hubungan yang sebenarnya telah sepenuhnya hilang:
sumber