Inferensi tidak valid ketika pengamatan tidak independen

13

Saya belajar dalam statistik dasar bahwa, dengan model linear umum, agar kesimpulan valid, pengamatan harus independen. Ketika pengelompokan terjadi, independensi mungkin tidak lagi mengarah pada inferensi yang tidak valid kecuali hal ini diperhitungkan. Salah satu cara untuk menjelaskan pengelompokan tersebut adalah dengan menggunakan model campuran. Saya ingin mencari contoh dataset, disimulasikan atau tidak, yang menunjukkan ini dengan jelas. Saya mencoba menggunakan salah satu dataset sampel di situs UCLA untuk menganalisis data berkerumun

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

Kecuali saya melewatkan sesuatu, hasil ini cukup mirip sehingga saya tidak akan berpikir output dari lm()tidak valid. Saya telah melihat beberapa contoh lain (misalnya 5.2 dari Pusat Universitas Bristol untuk Pemodelan Multilevel ) dan menemukan kesalahan standar juga tidak terlalu berbeda (saya tidak tertarik pada efek acak sendiri dari model campuran, tetapi perlu dicatat bahwa ICC dari output model campuran adalah 0,42).

Jadi, pertanyaan saya adalah 1) di bawah kondisi apa kesalahan standar akan sangat berbeda ketika clustering terjadi, dan 2) dapatkah seseorang memberikan contoh dataset seperti itu (disimulasikan atau tidak).

Joe King
sumber
Bisakah Anda memperluas apa yang Anda maksud dengan pengelompokan?
bayerj
@bayerj dengan pengelompokan, maksud saya ketika pengamatan yang mirip satu sama lain dikelompokkan bersama dalam beberapa jenis unit, misalnya 10 pengukuran tekanan darah diambil pada 50 individu.
Joe King

Jawaban:

11

Pertama-tama, Anda benar, dataset ini mungkin bukan yang terbaik untuk memahami model campuran. Tapi mari kita lihat dulu mengapa

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

Anda melihat bahwa Anda memiliki 310 pengamatan dan 187 kelompok, di mana 132 di antaranya hanya memiliki satu pengamatan. Ini tidak berarti bahwa kita tidak boleh menggunakan pemodelan multi-level, tetapi hanya saja kita tidak akan mendapatkan hasil yang sangat berbeda seperti yang Anda nyatakan.

Motivasi pemodelan multi-level

Motivasi untuk menggunakan pemodelan multi-level dimulai dari desain itu sendiri, dan bukan hanya dari hasil analisis yang dilakukan. Tentu saja contoh yang paling umum adalah mengambil banyak pengamatan dari individu, tetapi untuk membuat hal-hal yang lebih ekstrem untuk memberikan situasi yang lebih mudah dipahami, pikirkan bertanya individu-individu dari berbagai negara di seluruh dunia tentang pendapatan mereka. Jadi contoh terbaik adalah mereka yang memiliki banyak heterogenitas, karena mengambil cluster yang homogen dalam hasil pemeriksaan tentu saja tidak akan membuat banyak perbedaan.

Contoh

Jadi, mari kita simulasikan beberapa data untuk memperjelas, simulasi bekerja lebih baik karena data kehidupan nyata tidak begitu jelas. Bayangkan Anda mengambil negara dan Anda bertanya kepada orang dari masing-masing negara tentang pendapatan mereka dan hal lain yang memiliki efek positif dalam pendapatan dengan koefisien .10100yx0,5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

Jadi, jalankan model linier yang Anda dapatkan

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

dan Anda menyimpulkan bahwa xtidak memiliki efek statistik pada y. Lihat seberapa besar kesalahan standar. Tetapi menjalankan model intersepsi acak

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

Anda melihat seberapa banyak kesalahan standar estimasi telah berubah. Melihat bagian efek acak, kita melihat bagaimana variabilitas telah didekomposisi - sebagian besar variabilitas dalam pendapatan adalah antara negara, dan di dalam negara orang-orang memiliki pendapatan yang lebih mirip. Dengan kata sederhana, yang terjadi di sini adalah bahwa tidak memperhitungkan pengelompokan efek dari x"tersesat" (jika kita dapat menggunakan istilah semacam ini), tetapi menguraikan variabilitas Anda menemukan apa yang seharusnya Anda dapatkan.

Steve
sumber
+1 Terima kasih, ini bagus. Meskipun saya yakin saya ingat pernah membaca beberapa kali bahwa UK biasanya lebih kecil ketika gagal menjelaskan clustering, jadi saya masih agak bingung - apa skenario ketika model linier akan mengembalikan SE yang terlalu kecil?
Joe King
@ JoKing, ini berlaku untuk SE clustered robust, bukan untuk pemodelan multilevel. Anda dapat melihatnya juga di halaman ats.ucla tempat Anda mengambil data.
Steve
@JoKing untuk memahami sepenuhnya perbedaan lihat stats.stackexchange.com/questions/8291/…
Steve