Menunjukkan bahwa 100 pengukuran untuk 5 subjek memberikan informasi yang jauh lebih sedikit daripada 5 pengukuran untuk 100 subjek

21

Di sebuah konferensi saya mendengar pernyataan berikut:

100 pengukuran untuk 5 subjek memberikan informasi yang jauh lebih sedikit daripada 5 pengukuran untuk 100 subjek.

Ini agak jelas bahwa ini benar, tetapi saya bertanya-tanya bagaimana orang dapat membuktikannya secara matematis ... Saya pikir model campuran linear dapat digunakan. Namun, saya tidak tahu banyak tentang matematika yang digunakan untuk memperkirakannya (saya hanya menjalankan lmer4untuk LMM dan bmrsuntuk GLMM :) Bisakah Anda tunjukkan contoh di mana ini benar? Saya lebih suka jawaban dengan beberapa rumus, daripada hanya beberapa kode dalam R. Jangan ragu untuk mengasumsikan pengaturan sederhana, seperti misalnya model campuran linier dengan penyadapan dan lereng acak yang terdistribusi normal.

PS jawaban berbasis matematika yang tidak melibatkan LMM akan baik-baik saja. Saya memikirkan LMM karena menurut saya alat alami untuk menjelaskan mengapa lebih sedikit pengukuran dari lebih banyak subjek lebih baik daripada lebih banyak pengukuran dari beberapa subjek, tetapi saya mungkin salah.

DeltaIV
sumber
3
+1. Saya kira pengaturan paling sederhana adalah mempertimbangkan tugas memperkirakan populasi rata-rata mana setiap subjek memiliki rata rata mereka sendiri dan setiap pengukuran subjek ini didistribusikan sebagai . Jika kita mengambil pengukuran dari masing-masing mata pelajaran, maka apa cara optimal untuk set dan diberikan produk konstan . a ~ N ( μ , σ 2 a ) x ~ N ( a , σ 2 ) n m n m n m = NμSebuahN(μ,σSebuah2)xN(Sebuah,σ2)nmnmnm=N
Amuba kata Reinstate Monica
"Optimal" dalam arti meminimalkan varians rata-rata sampel dari titik data diperoleh. N
Amoeba berkata Reinstate Monica
1
Iya nih. Tetapi untuk pertanyaan Anda, kami tidak perlu peduli bagaimana memperkirakan varians; pertanyaan Anda (yaitu kutipan dalam pertanyaan Anda) adalah saya percaya hanya tentang memperkirakan rata-rata global dan tampak jelas bahwa penaksir terbaik diberikan oleh rata-rata besar dari semua poin dalam sampel. Pertanyaannya kemudian adalah: diberikan , , , dan , apa varian dari ˉ x ? Jika kita tahu bahwa, kita akan mampu untuk menguranginya sehubungan dengan n diberi n m = N kendala.ˉ x N = n m μ σ 2 σ 2 a n mμx¯N=nmμσ2σa2nmx¯nnm=N
Amoeba berkata Reinstate Monica
1
Saya tidak tahu bagaimana menurunkan semua itu, tetapi saya setuju bahwa itu tampak jelas: untuk memperkirakan varians kesalahan, yang terbaik adalah memiliki semua pengukuran dari satu subjek tunggal; dan untuk memperkirakan varians subjek, (mungkin?) yang terbaik adalah memiliki N subjek yang berbeda dengan masing-masing 1 pengukuran. Tidak begitu jelas tentang mean, tetapi intuisi saya mengatakan bahwa memiliki subjek N dengan 1 pengukuran masing-masing akan lebih baik juga. Saya ingin tahu apakah itu benar ...NNN
amoeba berkata Reinstate Monica
2
Mungkin sesuatu seperti itu: Varian sampel berarti per subjek harus , di mana istilah pertama adalah varians subjek dan yang kedua adalah varians estimasi estimasi rata-rata setiap subjek. Maka varians dari over-subyek berarti (yaitu grand mean) akan menjadi(σ 2 a +σ2/n)/m=σ 2 a /m+σ2/(nm)=σ 2 a /mσSebuah2+σ2/n yang diperkecil ketika m = N .
(σSebuah2+σ2/n)/m=σSebuah2/m+σ2/(nm)=σSebuah2/m+σ2/N=σSebuah2/m+cHainst,
m=N
Amoeba berkata Reinstate Monica

Jawaban:

25

Jawaban singkatnya adalah dugaan Anda benar ketika dan hanya ketika ada korelasi intra kelas yang positif dalam data . Secara empiris, sebagian besar kumpulan data cluster menunjukkan korelasi intra kelas yang positif, yang berarti bahwa dalam praktiknya dugaan Anda biasanya benar. Tetapi jika korelasi intra-kelas adalah 0, maka dua kasus yang Anda sebutkan sama-sama informatif. Dan jika korelasi intra-kelas negatif , maka sebenarnya kurang informatif untuk mengambil lebih sedikit pengukuran pada lebih banyak subjek; kami benar-benar lebih suka (sejauh mengurangi varian estimasi parameter yang bersangkutan) untuk mengambil semua pengukuran kami pada satu subjek.

Secara statistik ada dua perspektif dari mana kita dapat berpikir tentang hal ini: a random-efek (atau campuran ) Model yang Anda sebutkan dalam pertanyaan Anda, atau model yang marginal , yang akhirnya menjadi sedikit lebih informatif di sini.

Model efek-acak (campuran)

Katakanlah kita memiliki satu set subjek yang masing-masing telah kita ukur m . Kemudian model efek-acak sederhana dari jnmj pengukuran dari subjek ke- mungkin y i j = β + u i + e i j , di mana β adalah intersep tetap, u i adalah efek subjek acak (dengan varian σ 2 u ), e i j adalah istilah tingkat kesalahan observasi (dengan varian σ 2 esaya

ysayaj=β+kamusaya+esayaj,
βkamusayaσkamu2esayajσe2), dan dua istilah acak terakhir bersifat independen.

Dalam model ini mewakili mean populasi, dan dengan dataset yang seimbang (yaitu, jumlah pengukuran yang sama dari masing-masing subjek), estimasi terbaik kami hanyalah mean sampel. Jadi jika kita mengambil "lebih banyak informasi" berarti varians yang lebih kecil untuk perkiraan ini, maka pada dasarnya kita ingin tahu bagaimana varians mean sampel tergantung pada n dan m . Dengan sedikit aljabar kita bisa menghitung var itu ( 1βnm Meneliti ungkapan ini, kita dapat melihat bahwasetiap kali ada varians subjek(yaitu,σ2u>0), meningkatkan jumlah subjek (n) akan membuat kedua istilah ini lebih kecil, sekaligus meningkatkan jumlah pengukuran per subjek (m) hanya akan membuat periode kedua lebih kecil. (Untuk implikasi praktis dari ini untuk merancang proyek replikasi multi-situs, lihatposting blog ini yang saya tulis beberapa waktu lalu.)

var(1nmsayajysayaj)=var(1nmsayajβ+kamusaya+esayaj)=1n2m2var(sayajkamusaya+sayajesayaj)=1n2m2(m2sayavar(kamusaya)+sayajvar(esayaj))=1n2m2(nm2σkamu2+nmσe2)=σkamu2n+σe2nm.
σkamu2>0nm

Sekarang Anda ingin tahu apa yang terjadi ketika kita menambah atau mengurangi atau n sambil mempertahankan jumlah pengamatan secara konstan. Jadi untuk itu kita anggap n m sebagai konstanta, sehingga seluruh ekspresi varian hanya tampak seperti σ 2 umnnm yang sekecil mungkin ketikanadalah sebesar mungkin (hingga maksimumn=nm, dalam hal inim=1, artinya kita mengambil satu pengukuran tunggal dari setiap subjek).

σkamu2n+konstan,
nn=nmm=1

Jawaban singkat saya merujuk pada korelasi intra-kelas, jadi di mana itu cocok? Dalam model efek-acak sederhana ini korelasi intra-kelas adalah (sketsa derivasi disini). Jadi kita dapat menulis persamaan varians di atas sebagai var(1

ρ=σkamu2σkamu2+σe2
ini tidak benar-benar menambah wawasan apapun untuk apa yang sudah kita lihat di atas, tapi itu tidak membuat kita bertanya-tanya: sejak korelasi intra-kelas adalah koefisien korelasi bonafide, dan koefisien korelasi bisa negatif, apa yang akan terjadi (dan apa artinya) jika korelasi intra-kelas negatif?
var(1nmsayajysayaj)=σkamu2n+σe2nm=(ρn+1-ρnm)(σkamu2+σe2)

σkamu2ρ

Model marjinal

ysayaj

ysayaj=β+esayaj,
kamusayaesayajesayaj=kamusaya+esayajkamusayaesayajesayajC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
ρeρρ.)

var(1nmsayajysayaj)=var(1nmsayajβ+esayaj)=1n2m2var(sayajesayaj)=1n2m2(n(mσ2+(m2-m)ρσ2))=σ2(1+(m-1)ρ)nm=(ρn+1-ρnm)σ2,
σe2+σu2=σ2eij=ui+eij

ρ1/(m1)m=2ρ=1m=3ρ=1/2

nm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0mn
Jake Westfall
sumber
3
ρ<0nmσkamuβ
3
mρ
1
σu2Σ yang Anda maksud?
Amuba kata Reinstate Monica
2
σu2+σe2/mi (itulah sebabnya Jake menulis di atas bahwa bobotnya harus bergantung pada estimasi varians antar subjek). Perkiraan varians dalam subjek diberikan oleh varians dari penyimpangan dalam subjek yang dikumpulkan, estimasi varians antar subjek adalah varians cara subyek, dan menggunakan semua yang dapat dihitung bobotnya. (Tapi saya tidak yakin apakah ini 100% setara dengan apa yang dilakukan Lmer.)
Amoeba berkata Reinstate Monica
1
mρm
amoeba berkata Reinstate Monica