Model campuran vs. Kesalahan Standar Penyatuan untuk Studi Multi-Lokasi - Mengapa Model Campuran Jauh Lebih Efisien?

16

Saya punya satu set data yang terdiri dari serangkaian jumlah kasus "patah tongkat" bulanan dari beberapa situs. Saya mencoba mendapatkan taksiran ringkasan tunggal dari dua teknik berbeda:

Teknik 1: Pasang "tongkat patah" dengan Poisson GLM dengan variabel indikator 0/1, dan menggunakan variabel waktu dan waktu ^ 2 untuk mengendalikan tren waktu. Estimasi variabel indikator 0/1 dan SE dikumpulkan menggunakan metode teknik momen lurus ke atas dan ke bawah, atau menggunakan paket tlnise dalam R untuk mendapatkan estimasi "Bayesian". Ini mirip dengan apa yang Peng dan Dominici lakukan dengan data polusi udara, tetapi dengan lebih sedikit situs (~ selusin).

Teknik 2: Abaikan beberapa kontrol spesifik lokasi untuk tren waktu dan gunakan model campuran linier. Terutama:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Pertanyaan saya menyangkut kesalahan standar yang muncul dari perkiraan ini. Kesalahan standar Teknik 1, yang sebenarnya menggunakan pengaturan waktu mingguan dan bukan bulanan dan karenanya harus lebih presisi, memiliki kesalahan standar pada estimasi ~ 0,206 untuk pendekatan Metode Momen dan ~ 0,306 untuk tlnise.

Metode lmer memberikan kesalahan standar ~ 0,09. Perkiraan efeknya cukup dekat, sehingga sepertinya mereka tidak memusatkan perhatian pada perkiraan ringkasan berbeda sebanyak model campuran jauh lebih efisien.

Apakah itu sesuatu yang masuk akal untuk diharapkan? Jika demikian, mengapa model campuran jauh lebih efisien? Apakah ini fenomena umum, atau hasil spesifik dari model ini?

Fomite
sumber
Pertanyaan ini sulit dijawab tanpa mengetahui dengan tepat model apa yang Anda cocok dengan Teknik 1. Anda menyebutkan 3 kemungkinan, tetapi sejauh yang saya tahu, tidak pernah puas dengan satu. Kemudian Anda mengatakan "Kesalahan standar Teknik 1 [...] adalah ~ 0,206." Tepatnya untuk model apa kesalahan standar ini? Apakah Anda akan memposting sintaks yang Anda gunakan untuk menyesuaikan model ini, seperti yang Anda lakukan untuk Teknik 2? Yang lebih baik lagi adalah memberikan contoh yang dapat direproduksi (belum tentu set data asli Anda) yang dapat kami cocokkan dengan kedua model.
Jake Westfall
@JakeWestfall Anda benar, ketika saya pertama kali menulis ini, itu semacam aliran kesadaran ketika masalah berkembang. Saya akan melakukan beberapa pengeditan dan melihat apakah itu bisa lebih membantu. Sayangnya, kodenya telah hilang di suatu tempat ...
Fomite
Dilakukan sedikit pembersihan - desain model menggunakan variabel yang sama. Sayangnya, kode, data, dll. Ada di komputer lain dan saya di sebuah konferensi. Menurut saya, pertanyaan mendasar dapat diajukan ke "Perkiraan beberapa situs: Apakah model campuran selalu / sering lebih efisien daripada pengumpulan?"
Fomite

Jawaban:

5

Saya tahu ini adalah pertanyaan lama, tetapi ini relatif populer dan memiliki jawaban yang sederhana, jadi semoga akan membantu orang lain di masa depan. Untuk penjelasan lebih mendalam, lihat kursus Christoph Lippert tentang Linear Mixed Models yang menguji mereka dalam konteks studi asosiasi genome di sini . Secara khusus lihat Kuliah 5 .

Alasan mengapa model campuran bekerja jauh lebih baik adalah karena itu dirancang untuk memperhitungkan dengan tepat apa yang Anda coba kendalikan: struktur populasi. "Populasi" dalam penelitian Anda adalah berbagai situs yang menggunakan, misalnya, implementasi yang sedikit berbeda tetapi konsisten dari protokol yang sama. Juga, jika subjek penelitian Anda adalah orang-orang, orang-orang yang dikumpulkan dari situs yang berbeda lebih kecil kemungkinannya untuk berhubungan daripada orang-orang dari situs yang sama, sehingga keterkaitan darah juga dapat berperan.

N(Y|Xβ,σ2)KN(Y|Xβ+Zkamu,σ2saya+σg2K)

Karena Anda mencoba mengendalikan struktur populasi secara eksplisit, maka tidak mengherankan jika model campuran linier mengungguli teknik regresi lainnya.

Michael K.
sumber