Saya belajar dalam statistik dasar bahwa, dengan model linear umum, agar kesimpulan valid, pengamatan harus independen. Ketika pengelompokan terjadi, independensi mungkin tidak lagi mengarah pada inferensi yang tidak valid kecuali hal ini diperhitungkan. Salah satu cara untuk menjelaskan pengelompokan tersebut adalah dengan menggunakan model campuran. Saya ingin mencari contoh dataset, disimulasikan atau tidak, yang menunjukkan ini dengan jelas. Saya mencoba menggunakan salah satu dataset sampel di situs UCLA untuk menganalisis data berkerumun
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Kecuali saya melewatkan sesuatu, hasil ini cukup mirip sehingga saya tidak akan berpikir output dari lm()
tidak valid. Saya telah melihat beberapa contoh lain (misalnya 5.2 dari Pusat Universitas Bristol untuk Pemodelan Multilevel ) dan menemukan kesalahan standar juga tidak terlalu berbeda (saya tidak tertarik pada efek acak sendiri dari model campuran, tetapi perlu dicatat bahwa ICC dari output model campuran adalah 0,42).
Jadi, pertanyaan saya adalah 1) di bawah kondisi apa kesalahan standar akan sangat berbeda ketika clustering terjadi, dan 2) dapatkah seseorang memberikan contoh dataset seperti itu (disimulasikan atau tidak).
sumber
Jawaban:
Pertama-tama, Anda benar, dataset ini mungkin bukan yang terbaik untuk memahami model campuran. Tapi mari kita lihat dulu mengapa
Anda melihat bahwa Anda memiliki 310 pengamatan dan 187 kelompok, di mana 132 di antaranya hanya memiliki satu pengamatan. Ini tidak berarti bahwa kita tidak boleh menggunakan pemodelan multi-level, tetapi hanya saja kita tidak akan mendapatkan hasil yang sangat berbeda seperti yang Anda nyatakan.
Motivasi pemodelan multi-level
Motivasi untuk menggunakan pemodelan multi-level dimulai dari desain itu sendiri, dan bukan hanya dari hasil analisis yang dilakukan. Tentu saja contoh yang paling umum adalah mengambil banyak pengamatan dari individu, tetapi untuk membuat hal-hal yang lebih ekstrem untuk memberikan situasi yang lebih mudah dipahami, pikirkan bertanya individu-individu dari berbagai negara di seluruh dunia tentang pendapatan mereka. Jadi contoh terbaik adalah mereka yang memiliki banyak heterogenitas, karena mengambil cluster yang homogen dalam hasil pemeriksaan tentu saja tidak akan membuat banyak perbedaan.
Contoh
Jadi, mari kita simulasikan beberapa data untuk memperjelas, simulasi bekerja lebih baik karena data kehidupan nyata tidak begitu jelas. Bayangkan Anda mengambil negara dan Anda bertanya kepada orang dari masing-masing negara tentang pendapatan mereka dan hal lain yang memiliki efek positif dalam pendapatan dengan koefisien .10 100 0,5
y
x
Jadi, jalankan model linier yang Anda dapatkan
dan Anda menyimpulkan bahwa
x
tidak memiliki efek statistik paday
. Lihat seberapa besar kesalahan standar. Tetapi menjalankan model intersepsi acakAnda melihat seberapa banyak kesalahan standar estimasi telah berubah. Melihat bagian efek acak, kita melihat bagaimana variabilitas telah didekomposisi - sebagian besar variabilitas dalam pendapatan adalah antara negara, dan di dalam negara orang-orang memiliki pendapatan yang lebih mirip. Dengan kata sederhana, yang terjadi di sini adalah bahwa tidak memperhitungkan pengelompokan efek dari
x
"tersesat" (jika kita dapat menggunakan istilah semacam ini), tetapi menguraikan variabilitas Anda menemukan apa yang seharusnya Anda dapatkan.sumber