Misalkan saya memiliki tanggapan bivariat dengan korelasi signifikan. Saya mencoba membandingkan dua cara untuk memodelkan hasil ini. Salah satu caranya adalah dengan memodelkan perbedaan antara dua hasil: Cara lain adalah dengan menggunakan atau untuk memodelkannya: ( y i j = β 0 + waktu + X ′ β )
gls
gee
Berikut ini adalah contoh foo:
#create foo data frame
require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
df.wide$diff_y<-df.wide$y2-df.wide$y1
#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))
Apa perbedaan mendasar antara fit1
dan fit2
? Dan di antara fit2
dan fit3
, mengingat mereka begitu dekat dengan nilai dan estimasi ?
r
regression
model-selection
David Z
sumber
sumber
Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
Jawaban:
Pertama, saya akan memperkenalkan model keempat untuk diskusi dalam jawaban saya:
Bagian 0
Perbedaan antara fit1 dan fit1.5 diringkas sebagai perbedaan antara perbedaan dibatasi vs perbedaan optimal.
Saya akan menggunakan contoh yang lebih sederhana untuk menjelaskan ini daripada yang disediakan di atas. Mari kita mulai dengan fit1.5. Versi model yang lebih adalah Tentu saja, ketika kita mendapatkan estimasi OLS, itu akan menemukan pilihan "optimal" untuk . Dan, meskipun rasanya aneh menulis seperti itu, kita dapat menulis ulang rumus sebagai Kita dapat menganggap ini sebagai perbedaan "optimal" antara kedua variabel .
Sekarang, jika kita memutuskan untuk membatasi , maka rumus / model menjadi yang merupakan perbedaan (terbatas).b2=1
Catatan, dalam demonstrasi di atas, jika Anda membiarkan menjadi variabel dikotomis, dan menjadi pre-test dan skor tes pasangan pos, maka model perbedaan dibatasi hanya akan menjadi sampel independen -test untuk keuntungan dalam skor , sedangkan model perbedaan optimal adalah tes ANCOVA dengan skor pre-test digunakan sebagai kovariat.x y1 y2 t
Bagian 1
Model untuk fit2 dapat dipikirkan dengan cara yang mirip dengan pendekatan perbedaan yang digunakan di atas. Meskipun ini merupakan penyederhanaan yang berlebihan (seperti saya sengaja meninggalkan keluar istilah error), model bisa disajikan sebagai di mana untuk nilai-nilai dan untuk nilai-nilai . Inilah penyederhanaan yang berlebihan ... mari kita tulis ini Ditulis dengan cara lain, . Sedangkan model fit1.5 memiliki sebagai nilai untuk membuat perbedaan optimal untuk analisis OLS, di sinit = 0 y 1 t = 1 y 2 y 1
Bagian 2
Jadi apa perbedaan antara model fit2 dan fit3 ... sebenarnya, sangat sedikit. Model fit3 memang memperhitungkan korelasi dalam hal kesalahan, tetapi ini hanya mengubah proses estimasi, dan dengan demikian perbedaan antara dua output model akan minimal (di luar fakta bahwa fit3 memperkirakan faktor autoregresif).
Bagian 2.5
Dan saya akan memasukkan satu lagi model dalam diskusi ini
Model efek-campuran ini melakukan versi yang sedikit berbeda dari pendekatan autoregresif. Jika kita memasukkan koefisien waktu dalam efek acak, ini akan sebanding dengan menghitung perbedaan antara untuk setiap subjek. (Tapi, ini tidak akan berhasil ... dan modelnya tidak akan berjalan.)y
sumber