Memperbaiki vs Efek Acak

10

Saya baru-baru ini mulai belajar tentang Generalized Linear Mixed Models dan menggunakan R untuk mengeksplorasi perbedaan yang dibuat untuk memperlakukan keanggotaan grup sebagai efek tetap atau acak. Secara khusus, saya melihat contoh dataset yang dibahas di sini:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Seperti yang diuraikan dalam tutorial ini, efek ID Dokter cukup besar dan saya mengharapkan model campuran dengan intersep acak untuk memberikan hasil yang lebih baik. Namun, membandingkan nilai AIC untuk dua metode menunjukkan bahwa model ini lebih buruk:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Jadi, pertanyaan saya adalah:

(1) Apakah pantas untuk membandingkan nilai-nilai AIC yang disediakan oleh kedua fungsi? Jika demikian, mengapa model efek tetap lebih baik?

(2) Apa cara terbaik untuk mengidentifikasi jika efek tetap atau acak lebih penting (yaitu untuk mengukur bahwa variabilitas karena dokter lebih penting daripada karakteristik pasien?

Tamu333
sumber

Jawaban:

7

Model efek tetap dan model efek acak mengajukan berbagai pertanyaan data. Menentukan serangkaian variabel dummy tingkat grup pada dasarnya mengontrol semua heterogenitas tingkat grup yang tidak teramati dalam respons rata-rata, sehingga perkiraan Anda hanya mencerminkan variabilitas dalam unit. Model efek acak dimulai dengan asumsi bahwa ada meta-populasi (efek apa pun), dan bahwa sampel Anda mencerminkan banyak penarikan dari populasi itu. Jadi, alih-alih menjangkar hasil Anda di sekitar penyadapan heterogen, data Anda akan digunakan untuk menjelaskan parameter dari distribusi (biasanya normal) dari mana data Anda seharusnya diambil.

Sering dikatakan bahwa model efek tetap baik untuk melakukan inferensi pada data yang Anda miliki, dan bahwa model efek acak baik untuk mencoba melakukan inferensi pada populasi yang lebih besar dari mana data Anda adalah sampel acak.

Ketika saya belajar tentang model efek tetap, mereka termotivasi menggunakan komponen kesalahan dan data panel. Ambil beberapa pengamatan unit yang diberikan, dan perawatan acak dalam waktu .t

yit=αi+βTit+ϵit

Anda dapat memecah istilah kesalahan Anda ke dalam komponen istilah kesalahan Anda yang bervariasi dalam waktu, dan yang tidak:

yit=αi+βTit+ei+uit

Sekarang kurangi mean groupwise dari kedua sisi:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

Hal-hal yang tidak disubkripsikan oleh keluar dari persamaan dengan pengurangan dasar - yang mengatakan bahwa rata-rata dari waktu ke waktu adalah sama dengan kapan saja jika tidak pernah berubah. Ini termasuk komponen waktu kesalahan Anda yang tidak bervariasi waktu. Karenanya, perkiraan Anda tidak akan dikacaukan oleh heterogenitas yang berbeda waktu. t

Ini tidak cukup bekerja untuk model efek acak - non Anda -indexed variabel tidak akan sopped oleh transformasi itu ( "dalam" transformasi). Dengan demikian, Anda dapat menarik kesimpulan tentang efek hal-hal yang tidak berbeda dalam kelompok. Di dunia nyata, hal-hal seperti itu penting. Dengan demikian, efek acak baik untuk "memodelkan data", sementara model efek tetap baik untuk mendekati perkiraan yang tidak bias dari istilah tertentu. Dengan model efek acak, Anda tidak dapat mengklaim sepenuhnya telah menghapus .tei

Dalam contoh ini, waktu adalah variabel pengelompokan. Dalam contoh Anda, DID. (Yaitu: itu menggeneralisasi)

generic_user
sumber
1

1) Sangat tepat untuk melakukan perbandingan, hanya saja tidak dengan kedua model tersebut. Anda ingin membandingkan:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

dengan

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

dan Anda dapat melakukan ini dengan anova:

anova(GLM, GLMM)

(Tidak yakin apakah ini akan bekerja dengan glmdan glmerhasil, karena mereka mungkin objek R. yang berbeda. Anda mungkin harus menggunakan dua fungsi yang memiliki objek pengembalian yang sebanding, seperti lmedan gls, atau melakukan anova sendiri.)

Anova akan melakukan uji rasio log-likelihood untuk melihat apakah penambahan efek dokter acak signifikan. Anda perlu membagi nilai-p dengan 2 sebelum menyatakan signifikansi karena Anda menguji hipotesis nol bahwa efek dokter acak adalah 0, dan 0 berada pada batas ruang parameter untuk varian (distribusi aktual yang Anda gunakan dalam tes ini merupakan campuran dari dan - tetapi saya berada di dekat batas ketidaktahuan saya pada saat ini).χ02χ12

Bagi saya, buku terbaik untuk memahami proses pembangunan model bersarang dan pengujian hipotesis adalah West, Welsh, dan Galecki (2007) Linear Mixed Models: Sebuah panduan praktis . Mereka melewati semua langkah demi langkah.

2) Jika Anda memiliki beberapa pengamatan per pasien Anda juga akan menambahkan efek acak untuk pasien. Kemudian untuk menguji kepentingan relatif dari kesabaran vs dokter Anda bisa melihat efek prediksi pasien vs efek prediksi untuk dokter. Istilah efek acak untuk masing-masing akan menghitung jumlah varians antara pasien dan antara dokter, jika itu adalah pertanyaan yang Anda minati.

(Seseorang tolong koreksi saya jika saya salah!)

Christopher Poile
sumber
Saya tidak yakin itu masuk akal untuk memiliki DIDsebagai baik efek tetap, dan mencegat acak dalam model 2. Selain itu, menjadikannya sebagai efek tetap pada model 1 berarti bahwa pilihan b / t 2 ini akan mengenai cara berpikir tentang efek DID, bukan apakah perlu dimasukkan. Pada catatan yang berbeda, saya perhatikan Anda memiliki item (2); Apakah Anda bermaksud memiliki item (1) di suatu tempat?
gung - Reinstate Monica
Anda benar sekali; Saya pergi dari formula glm asli OP yang seharusnya tidak memiliki DID sebagai efek tetap di tempat pertama. Sekarang pilihannya adalah antara apakah memperlakukan DID sebagai efek acak menambah nilai pada model.
Christopher Poile
1

Modelnya sangat berbeda. Model glm menangani pengurangan keseluruhan penyimpangan (dari model nol) ketika semua efek doctorID diperkirakan dan dan sedang ditugaskan estimasi parameter. Anda perhatikan, tentu saja, bahwa Age, Married, dan IL6 semuanya memiliki statistik Wald yang sama dalam dua model, bukan? Pemahaman saya (bukan yang sangat halus saya akui) adalah bahwa model campuran memperlakukan doctorIDs sebagai faktor atau strata gangguan, yaitu "efek" yang tidak dapat diasumsikan diambil dari distribusi induk tertentu. Saya tidak melihat alasan untuk berpikir bahwa menggunakan model campuran akan meningkatkan pemahaman Anda tentang "efek dokter", justru sebaliknya.

Jika Anda tertarik pada efek Age, Married, atau IL6, saya akan membayangkan bahwa Anda tidak akan membandingkan AIC di kedua model tersebut, tetapi di seluruh perbedaan dalam AIC dengan menghilangkan kovariat minat dalam struktur pemodelan yang sama.

DWIN
sumber