Saya mengerti bahwa kami menggunakan model efek acak (atau efek campuran) ketika kami percaya bahwa beberapa parameter model bervariasi secara acak di beberapa faktor pengelompokan. Saya memiliki keinginan untuk menyesuaikan model di mana respons telah dinormalisasi dan terpusat (tidak sempurna, tapi cukup dekat) di seluruh faktor pengelompokan, tetapi variabel independen x
belum disesuaikan dengan cara apa pun. Ini membawa saya ke tes berikut (menggunakan data palsu ) untuk memastikan bahwa saya akan menemukan efek yang saya cari jika memang ada. Saya menjalankan satu model efek campuran dengan intersep acak (lintas kelompok yang ditentukan oleh f
) dan model efek tetap kedua dengan faktor f sebagai prediktor efek tetap. Saya menggunakan paket R lmer
untuk model efek campuran, dan fungsi dasarlm()
untuk model efek tetap. Berikut ini adalah data dan hasilnya.
Perhatikan bahwa y
, terlepas dari grup, bervariasi di sekitar 0. Dan itu x
bervariasi secara konsisten dengan di y
dalam grup, tetapi berbeda jauh lebih banyak antar kelompok daripaday
> data
y x f
1 -0.5 2 1
2 0.0 3 1
3 0.5 4 1
4 -0.6 -4 2
5 0.0 -3 2
6 0.6 -2 2
7 -0.2 13 3
8 0.1 14 3
9 0.4 15 3
10 -0.5 -15 4
11 -0.1 -14 4
12 0.4 -13 4
Jika Anda tertarik bekerja dengan data, ini adalah dput()
output:
data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4,
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15,
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L,
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")),
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")
Menyesuaikan model efek campuran:
> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML
Formula: y ~ x + (1 | f)
Data: data
AIC BIC logLik deviance REMLdev
28.59 30.53 -10.3 11 20.59
Random effects:
Groups Name Variance Std.Dev.
f (Intercept) 0.00000 0.00000
Residual 0.17567 0.41913
Number of obs: 12, groups: f, 4
Fixed effects:
Estimate Std. Error t value
(Intercept) 0.008333 0.120992 0.069
x 0.008643 0.011912 0.726
Correlation of Fixed Effects:
(Intr)
x 0.000
Saya perhatikan bahwa komponen varians intersep diperkirakan 0, dan yang penting bagi saya, x
bukan merupakan prediktor signifikan y
.
Selanjutnya saya cocok dengan model efek tetap dengan f
sebagai prediktor dan bukan faktor pengelompokan untuk intersep acak:
> summary(lm(y~ x + f,data=data))
Call:
lm(formula = y ~ x + f, data = data)
Residuals:
Min 1Q Median 3Q Max
-0.16250 -0.03438 0.00000 0.03125 0.16250
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.38750 0.14099 -9.841 2.38e-05 ***
x 0.46250 0.04128 11.205 1.01e-05 ***
f2 2.77500 0.26538 10.457 1.59e-05 ***
f3 -4.98750 0.46396 -10.750 1.33e-05 ***
f4 7.79583 0.70817 11.008 1.13e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189
F-statistic: 32.16 on 4 and 7 DF, p-value: 0.0001348
Sekarang saya perhatikan bahwa, seperti yang diharapkan, x
adalah prediktor signifikan y
.
Apa yang saya cari adalah intuisi mengenai perbedaan ini. Dalam hal apa pemikiran saya salah di sini? Mengapa saya salah berharap untuk menemukan parameter yang signifikan untuk x
di kedua model ini tetapi hanya benar-benar melihatnya dalam model efek tetap?
sumber
x
variabel tidak signifikan. Saya menduga itu adalah hasil yang sama (koefisien dan SE) yang akan Anda jalankanlm(y~x,data=data)
. Tidak punya waktu lagi untuk mendiagnosis, tetapi ingin menunjukkan ini.Jawaban:
Ada beberapa hal yang terjadi di sini. Ini adalah masalah yang menarik, tetapi akan membutuhkan waktu / ruang yang cukup untuk menjelaskan semuanya.
Pertama-tama, ini semua menjadi jauh lebih mudah dipahami jika kita memplot data . Berikut adalah sebar plot di mana titik data diwarnai oleh grup. Selain itu, kami memiliki garis regresi khusus kelompok yang terpisah untuk setiap kelompok, serta garis regresi sederhana (mengabaikan kelompok) dalam huruf tebal putus-putus:
Model efek tetap
lm()
Model campuran
Berikut adalah koefisien untuk model regresi sederhana (garis tebal putus-putus dalam plot):
Seperti yang Anda lihat, koefisien di sini identik dengan apa yang kami peroleh dalam model campuran. Ini persis seperti yang kami harapkan, karena seperti yang telah Anda catat, kami memiliki perkiraan 0 varians untuk intersep acak, sehingga membuat rasio / korelasi intra-kelas yang disebutkan sebelumnya 0. Jadi estimasi model campuran dalam kasus ini hanyalah estimasi regresi linier sederhana, dan seperti yang dapat kita lihat dalam plot, kemiringan di sini jauh lebih jelas daripada lereng dalam-klaster.
Ini membawa kita ke satu masalah konseptual akhir ...
Mengapa varians dari intersep acak diperkirakan 0?
Jawaban untuk pertanyaan ini memiliki potensi untuk menjadi sedikit teknis dan sulit, tetapi saya akan mencoba untuk membuatnya sesederhana dan tidak teknis sebanyak yang saya bisa (untuk kita semua!). Tapi mungkin masih sedikit bertele-tele.
Model campuran yang kami pertimbangkan tidak menggunakan metode korelasi intra-kelas untuk mewakili ketergantungan pada data. Sebaliknya itu menggambarkan ketergantungan dalam hal komponen varians . Ini semua baik-baik saja selama korelasi intra-kelas positif. Dalam kasus-kasus tersebut, korelasi intra-kelas dapat dengan mudah ditulis dalam hal komponen varians, khususnya sebagai rasio varian intersep acak yang disebutkan sebelumnya terhadap total varian. (Lihat halaman wiki tentang korelasi intra-kelasuntuk info lebih lanjut tentang ini.) Tetapi sayangnya model varians-komponen mengalami kesulitan berurusan dengan situasi di mana kita memiliki korelasi intra kelas yang negatif. Setelah semua, menulis korelasi intra-kelas dalam hal komponen varians melibatkan menulisnya sebagai proporsi varians, dan proporsi tidak boleh negatif.
Jadi apa yang bisa kita lakukan?
Akhirnya, kami masih memiliki perkiraan 0 untuk varian intersep acak, karena alasan yang saya uraikan di bagian sebelumnya. Saya tidak benar-benar yakin apa yang bisa kita lakukan mengenai hal itu setidaknya tanpa beralih ke beberapa perangkat lunak selain
lmer()
, dan saya juga tidak yakin sejauh mana hal ini masih akan mempengaruhi perkiraan kami dalam model campuran akhir ini. Mungkin pengguna lain dapat berbaur dengan beberapa pemikiran tentang masalah ini.Referensi
sumber
lme
membatasi secara default menjadi> = 0? Lihat pertanyaan ini dan jawaban yanggls
correlation = corCompSymm(form = ~1|f)
lme
Setelah banyak perenungan, saya yakin saya telah menemukan jawaban saya sendiri. Saya percaya seorang ahli ekonometrika akan mendefinisikan variabel independen saya menjadi endogen dan dengan demikian dikorelasikan dengan variabel independen dan dependen. Dalam hal ini, variabel-variabel tersebut dihilangkan atau tidak diamati . Namun, saya mengamati pengelompokan di mana variabel yang dihilangkan harus bervariasi.
Saya percaya ahli ekonometrika akan menyarankan model efek tetap . Yaitu, model yang menyertakan boneka untuk setiap tingkat pengelompokan (atau spesifikasi yang setara yang mengkondisikan model sedemikian rupa sehingga banyak pengelompokan boneka tidak diperlukan) dalam kasus ini. Dengan model efek tetap, harapannya adalah bahwa semua variabel yang tidak diamati dan time-invariant dapat dikendalikan dengan mengkondisikan seluruh variasi kelompok (atau lintas individu). Memang, model kedua dalam pertanyaan saya justru merupakan model efek tetap, dan dengan demikian memberikan perkiraan yang saya harapkan.
Saya menyambut komentar yang selanjutnya akan menerangi keadaan ini.
sumber