Di sebuah konferensi saya mendengar pernyataan berikut:
100 pengukuran untuk 5 subjek memberikan informasi yang jauh lebih sedikit daripada 5 pengukuran untuk 100 subjek.
Ini agak jelas bahwa ini benar, tetapi saya bertanya-tanya bagaimana orang dapat membuktikannya secara matematis ... Saya pikir model campuran linear dapat digunakan. Namun, saya tidak tahu banyak tentang matematika yang digunakan untuk memperkirakannya (saya hanya menjalankan lmer4
untuk LMM dan bmrs
untuk GLMM :) Bisakah Anda tunjukkan contoh di mana ini benar? Saya lebih suka jawaban dengan beberapa rumus, daripada hanya beberapa kode dalam R. Jangan ragu untuk mengasumsikan pengaturan sederhana, seperti misalnya model campuran linier dengan penyadapan dan lereng acak yang terdistribusi normal.
PS jawaban berbasis matematika yang tidak melibatkan LMM akan baik-baik saja. Saya memikirkan LMM karena menurut saya alat alami untuk menjelaskan mengapa lebih sedikit pengukuran dari lebih banyak subjek lebih baik daripada lebih banyak pengukuran dari beberapa subjek, tetapi saya mungkin salah.
Jawaban:
Jawaban singkatnya adalah dugaan Anda benar ketika dan hanya ketika ada korelasi intra kelas yang positif dalam data . Secara empiris, sebagian besar kumpulan data cluster menunjukkan korelasi intra kelas yang positif, yang berarti bahwa dalam praktiknya dugaan Anda biasanya benar. Tetapi jika korelasi intra-kelas adalah 0, maka dua kasus yang Anda sebutkan sama-sama informatif. Dan jika korelasi intra-kelas negatif , maka sebenarnya kurang informatif untuk mengambil lebih sedikit pengukuran pada lebih banyak subjek; kami benar-benar lebih suka (sejauh mengurangi varian estimasi parameter yang bersangkutan) untuk mengambil semua pengukuran kami pada satu subjek.
Secara statistik ada dua perspektif dari mana kita dapat berpikir tentang hal ini: a random-efek (atau campuran ) Model yang Anda sebutkan dalam pertanyaan Anda, atau model yang marginal , yang akhirnya menjadi sedikit lebih informatif di sini.
Model efek-acak (campuran)
Katakanlah kita memiliki satu set subjek yang masing-masing telah kita ukur m . Kemudian model efek-acak sederhana dari jn m j pengukuran dari subjek ke- mungkin
y i j = β + u i + e i j , di
mana β adalah intersep tetap, u i adalah efek subjek acak (dengan varian σ 2 u ), e i j adalah istilah tingkat kesalahan observasi (dengan varian σ 2 esaya
Dalam model ini mewakili mean populasi, dan dengan dataset yang seimbang (yaitu, jumlah pengukuran yang sama dari masing-masing subjek), estimasi terbaik kami hanyalah mean sampel. Jadi jika kita mengambil "lebih banyak informasi" berarti varians yang lebih kecil untuk perkiraan ini, maka pada dasarnya kita ingin tahu bagaimana varians mean sampel tergantung pada n dan m . Dengan sedikit aljabar kita bisa menghitung var itu ( 1β n m
Meneliti ungkapan ini, kita dapat melihat bahwasetiap kali ada varians subjek(yaitu,σ2u>0), meningkatkan jumlah subjek (n) akan membuat kedua istilah ini lebih kecil, sekaligus meningkatkan jumlah pengukuran per subjek (m) hanya akan membuat periode kedua lebih kecil. (Untuk implikasi praktis dari ini untuk merancang proyek replikasi multi-situs, lihatposting blog ini yang saya tulis beberapa waktu lalu.)
Sekarang Anda ingin tahu apa yang terjadi ketika kita menambah atau mengurangi atau n sambil mempertahankan jumlah pengamatan secara konstan. Jadi untuk itu kita anggap n m sebagai konstanta, sehingga seluruh ekspresi varian hanya tampak seperti σ 2 um n n m
yang sekecil mungkin ketikanadalah sebesar mungkin (hingga maksimumn=nm, dalam hal inim=1, artinya kita mengambil satu pengukuran tunggal dari setiap subjek).
Jawaban singkat saya merujuk pada korelasi intra-kelas, jadi di mana itu cocok? Dalam model efek-acak sederhana ini korelasi intra-kelas adalah (sketsa derivasi disini). Jadi kita dapat menulis persamaan varians di atas sebagai var(1
Model marjinal
sumber