Saya punya satu set data yang terdiri dari serangkaian jumlah kasus "patah tongkat" bulanan dari beberapa situs. Saya mencoba mendapatkan taksiran ringkasan tunggal dari dua teknik berbeda:
Teknik 1: Pasang "tongkat patah" dengan Poisson GLM dengan variabel indikator 0/1, dan menggunakan variabel waktu dan waktu ^ 2 untuk mengendalikan tren waktu. Estimasi variabel indikator 0/1 dan SE dikumpulkan menggunakan metode teknik momen lurus ke atas dan ke bawah, atau menggunakan paket tlnise dalam R untuk mendapatkan estimasi "Bayesian". Ini mirip dengan apa yang Peng dan Dominici lakukan dengan data polusi udara, tetapi dengan lebih sedikit situs (~ selusin).
Teknik 2: Abaikan beberapa kontrol spesifik lokasi untuk tren waktu dan gunakan model campuran linier. Terutama:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Pertanyaan saya menyangkut kesalahan standar yang muncul dari perkiraan ini. Kesalahan standar Teknik 1, yang sebenarnya menggunakan pengaturan waktu mingguan dan bukan bulanan dan karenanya harus lebih presisi, memiliki kesalahan standar pada estimasi ~ 0,206 untuk pendekatan Metode Momen dan ~ 0,306 untuk tlnise.
Metode lmer memberikan kesalahan standar ~ 0,09. Perkiraan efeknya cukup dekat, sehingga sepertinya mereka tidak memusatkan perhatian pada perkiraan ringkasan berbeda sebanyak model campuran jauh lebih efisien.
Apakah itu sesuatu yang masuk akal untuk diharapkan? Jika demikian, mengapa model campuran jauh lebih efisien? Apakah ini fenomena umum, atau hasil spesifik dari model ini?
sumber
Jawaban:
Saya tahu ini adalah pertanyaan lama, tetapi ini relatif populer dan memiliki jawaban yang sederhana, jadi semoga akan membantu orang lain di masa depan. Untuk penjelasan lebih mendalam, lihat kursus Christoph Lippert tentang Linear Mixed Models yang menguji mereka dalam konteks studi asosiasi genome di sini . Secara khusus lihat Kuliah 5 .
Alasan mengapa model campuran bekerja jauh lebih baik adalah karena itu dirancang untuk memperhitungkan dengan tepat apa yang Anda coba kendalikan: struktur populasi. "Populasi" dalam penelitian Anda adalah berbagai situs yang menggunakan, misalnya, implementasi yang sedikit berbeda tetapi konsisten dari protokol yang sama. Juga, jika subjek penelitian Anda adalah orang-orang, orang-orang yang dikumpulkan dari situs yang berbeda lebih kecil kemungkinannya untuk berhubungan daripada orang-orang dari situs yang sama, sehingga keterkaitan darah juga dapat berperan.
Karena Anda mencoba mengendalikan struktur populasi secara eksplisit, maka tidak mengherankan jika model campuran linier mengungguli teknik regresi lainnya.
sumber