Ukuran sampel minimum per cluster dalam model efek acak

10

Apakah ada rasional untuk jumlah pengamatan per cluster dalam model efek acak? Saya memiliki ukuran sampel 1.500 dengan 700 cluster dimodelkan sebagai efek acak yang dapat ditukar. Saya memiliki opsi untuk menggabungkan kluster untuk membangun kluster yang lebih sedikit, tetapi lebih besar. Saya bertanya-tanya bagaimana saya bisa memilih ukuran sampel minimum per cluster untuk memiliki hasil yang bermakna dalam memprediksi efek acak untuk setiap cluster? Apakah ada tulisan bagus yang menjelaskan hal ini?

Roccer
sumber

Jawaban:

13

TL; DR : Ukuran sampel minimum per kluster dalam model efek campuran adalah 1, asalkan jumlah kluster memadai, dan proporsi klaster tunggal tidak "terlalu tinggi"

Versi yang lebih panjang:

Secara umum, jumlah cluster lebih penting daripada jumlah pengamatan per cluster. Dengan 700, jelas Anda tidak punya masalah di sana.

Ukuran kluster kecil cukup umum, terutama dalam survei ilmu sosial yang mengikuti desain pengambilan sampel bertingkat, dan ada badan penelitian yang telah menyelidiki ukuran sampel level klaster.

Sementara meningkatkan ukuran cluster meningkatkan kekuatan statistik untuk memperkirakan efek acak (Austin & Leckie, 2018), ukuran cluster kecil tidak mengarah pada bias serius (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Dengan demikian, ukuran sampel minimum per cluster adalah 1.

Secara khusus, Bell, et al (2008) melakukan studi simulasi Monte Carlo dengan proporsi cluster tunggal (cluster yang hanya berisi satu pengamatan) mulai dari 0% hingga 70%, dan menemukan bahwa, asalkan jumlah cluster besar (~ 500) ukuran cluster kecil hampir tidak berdampak pada bias dan kontrol kesalahan Tipe 1.

Mereka juga melaporkan sangat sedikit masalah dengan konvergensi model dalam skenario pemodelan mereka.

Untuk skenario tertentu dalam OP, saya sarankan menjalankan model dengan 700 cluster pada contoh pertama. Kecuali jika ada masalah yang jelas dengan ini, saya akan segan untuk menggabungkan cluster. Saya menjalankan simulasi sederhana di R:

Di sini kita membuat dataset berkerumun dengan varians residual 1, efek tetap tunggal juga dari 1, 700 cluster, dimana 690 adalah lajang dan 10 hanya memiliki 2 pengamatan. Kami menjalankan simulasi 1000 kali dan mengamati histogram dari perkiraan efek acak tetap dan residual.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Seperti yang Anda lihat, efek tetap diperkirakan dengan sangat baik, sedangkan efek acak residu tampaknya sedikit bias ke bawah, tetapi tidak secara drastis:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

OP secara khusus menyebutkan estimasi efek acak level-cluster. Dalam simulasi di atas, efek acak dibuat hanya sebagai nilai masing-masing SubjectID (diperkecil oleh faktor 100). Jelas ini tidak terdistribusi secara normal, yang merupakan asumsi model efek campuran linier, namun, kita dapat mengekstraksi (mode kondisional) efek level cluster dan memplotnya terhadap SubjectID aktual :

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Histogram agak berbeda dari normal, tetapi ini karena cara kami mensimulasikan data. Masih ada hubungan yang masuk akal antara estimasi dan efek acak aktual.

Referensi:

Peter C. Austin & George Leckie (2018) Pengaruh jumlah cluster dan ukuran cluster pada kekuatan statistik dan tingkat kesalahan Tipe I ketika menguji komponen varians efek acak dalam model regresi linier dan logistik multilevel, Jurnal Statistik Komputasi dan Simulasi, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Bell, BA, Ferron, JM, & Kromrey, JD (2008). Ukuran cluster dalam model bertingkat: dampak dari struktur data yang jarang pada estimasi titik dan interval dalam model dua tingkat . Prosiding JSM, Bagian tentang Metode Penelitian Survei, 1122-1129.

Clarke, P. (2008). Kapan pengelompokan tingkat grup dapat diabaikan? Model bertingkat versus model tingkat tunggal dengan data jarang . Jurnal Epidemiologi dan Kesehatan Masyarakat, 62 (8), 752-758.

Clarke, P., & Wheaton, B. (2007). Mengatasi kekurangan data dalam penelitian populasi kontekstual menggunakan analisis cluster untuk membuat lingkungan sintetis . Metode & Penelitian Sosiologis, 35 (3), 311-351.

Maas, CJ, & Hox, JJ (2005). Ukuran sampel yang memadai untuk pemodelan multilevel . Metodologi, 1 (3), 86-92.

Robert Long
sumber
1
+1 jawaban yang bagus. Terkait: Saya punya masalah dengan model multilevel logistik di mana sekitar setengah dari cluster hanya memiliki 1 pengamatan. Lihat di sini: stats.stackexchange.com/a/358460/130869
Mark White
4

Dalam model campuran, efek acak paling sering diperkirakan menggunakan metodologi Bayes empiris. Fitur dari metodologi ini adalah susut. Yaitu, efek acak yang diperkirakan menyusut menuju rata-rata keseluruhan model yang dijelaskan oleh bagian efek tetap. Tingkat penyusutan tergantung pada dua komponen:

  1. Besarnya varians dari efek acak dibandingkan dengan besarnya varians dari istilah kesalahan. Semakin besar varians dari efek acak dalam kaitannya dengan varians istilah kesalahan, semakin kecil tingkat penyusutannya.

  2. Jumlah pengukuran berulang dalam kelompok. Perkiraan efek acak dari cluster dengan pengukuran yang lebih berulang menyusut lebih sedikit menuju rata-rata keseluruhan dibandingkan dengan cluster dengan pengukuran lebih sedikit.

Dalam kasus Anda, poin kedua lebih relevan. Namun, perhatikan bahwa solusi Anda yang disarankan untuk menggabungkan cluster dapat berdampak pada poin pertama juga.

Dimitris Rizopoulos
sumber