Intuisi tentang estimasi parameter dalam model campuran (parameter varians vs. mode kondisional)

15

Saya telah membaca berkali-kali bahwa efek acak (BLUP / mode kondisional untuk, katakanlah, subjek) bukan parameter dari model efek campuran linier tetapi sebaliknya dapat diturunkan dari estimasi varians / parameter kovarian. Misalnya Reinhold Kliegl et al. (2011) menyatakan:

Efek acak adalah penyimpangan subjek dari grand mean RT dan penyimpangan subyek dari parameter efek tetap. Mereka diasumsikan terdistribusi secara independen dan normal dengan rata-rata 0. Penting untuk mengenali bahwa efek acak ini bukan parameter LMM - hanya varians dan kovariansi mereka. [...] Parameter LMM dalam kombinasi dengan data subjek dapat digunakan untuk menghasilkan "prediksi" (mode kondisional) dari efek acak untuk setiap subjek.

Dapatkah seseorang memberikan penjelasan intuitif bagaimana parameter (co) varians dari efek acak dapat diperkirakan tanpa benar-benar menggunakan / memperkirakan efek acak?

statmerkur
sumber

Jawaban:

6

Pertimbangkan model campuran linier sederhana, misalnya model intersep acak di mana kami memperkirakan ketergantungan pada dalam subjek yang berbeda, dan menganggap bahwa setiap subjek memiliki intersep acak mereka sendiri:Di sini penyadapan dimodelkan sebagai berasal dari distribusi Gaussian dan derau acak juga GaussianDalam sintaks model ini akan ditulis sebagai .x y = a + b x + c i + ϵ . c i c iN ( 0 , τ 2 ) ϵ N ( 0 , σ 2 ) .yx

y=a+bx+ci+ϵ.
ci
ciN(0,τ2)
ϵN(0,σ2).
lme4y ~ x + (1|subject)

Penting untuk menulis ulang di atas sebagai berikut:

ycN(a+bx+c,σ2)cN(0,τ2)

Ini adalah cara yang lebih formal untuk menentukan model probabilistik yang sama. Dari formulasi ini kita dapat langsung melihat bahwa efek acak bukan "parameter": mereka adalah variabel acak yang tidak teramati. Jadi bagaimana kita bisa memperkirakan parameter varians tanpa mengetahui nilai-nilai ? ccic

Perhatikan bahwa persamaan pertama di atas menggambarkan distribusi bersyarat dari diberikan . Jika kita mengetahui distribusi dan , maka kita dapat mengerjakan distribusi tanpa syarat dengan mengintegrasikan lebih dari . Anda mungkin tahu itu sebagai Hukum probabilitas total . Jika kedua distribusi adalah Gaussian, maka distribusi tanpa syarat yang dihasilkan juga Gaussian.yccycyc

Dalam hal ini distribusi tanpa syarat hanyalah , tetapi pengamatan kami bukan sampel pertama dari itu karena ada beberapa pengukuran per subjek. Untuk melanjutkan, kita perlu mempertimbangkan distribusi seluruh dimensi vektor dari semua pengamatan: mana adalah matriks blok-diagonal yang terdiri dari dan . Anda meminta intuisi jadi saya ingin menghindari matematika. Poin penting adalah bahwa persamaan ini tidak memilikiN(a+bx,σ2+τ2)ny

yN(a+bx,Σ)
Σ=σ2sayan+τ2sayaN1M.σ2τ2clagi! Inilah yang benar-benar cocok dengan data yang diamati, dan itulah sebabnya orang mengatakan bahwa bukan parameter dari model.ci

Ketika parameter , , , dan cocok, kita dapat menentukan distribusi kondisional dari untuk setiap . Apa yang Anda lihat dalam output model campuran adalah mode distribusi ini, alias mode kondisional.abτ2σ2cii

amuba kata Reinstate Monica
sumber
1
Saya suka jawaban ini. Saya juga menyukai pertanyaan itu. Secara pribadi, saya masih berjuang pada mekanisme (saya sebenarnya tidak pernah peduli untuk mempelajari algoritma yang memecahkan LMEM). Jadi saya kira perbedaan efek acak dibuat dengan mengubah dari ke Saya membayangkan bahwa sebuah contoh kecil yang berhasil mungkin bagus. Saya sedang mempertimbangkan untuk membuat ini sendiri, tetapi mungkin ada sumber daya yang sudah menunjukkan contoh seperti itu (ada orang?).
yN(a+bx,σ2I)
yN(a+bx,Σ)
Sextus Empiricus
ccc
Saya rasa saya tidak mendapatkan langkah integrasi. Seperti @Martijn Weterings menunjukkan sedikit (kode R) contoh atau referensi yang orang dapat menemukan ini akan menjadi hebat!
statmerkur
Terima kasih telah menerima jawaban saya dan memberi saya karunia @statmerkur, tapi sayang sekali masih belum jelas. Saya akan mencoba memikirkan contoh. Saya akan ping Anda ketika saya memperbarui jawabannya.
Amuba mengatakan Reinstate Monica
@statmerkur Dalam jawaban untuk pertanyaan ini saya mendemonstrasikan perhitungan manual model efek campuran (manual dalam arti menulis fungsi kemungkinan, optimasi masih dilakukan oleh fungsi optimasi standar di R) stats.stackexchange.com/a/ 337348/164061
Sextus Empiricus
0

Anda dapat dengan mudah memperkirakan parameter varians dan kovarians tanpa mengandalkan efek-acak dengan menggunakan efek-tetap (lihat di sini untuk diskusi efek-tetap vs efek-acak; perhatikan fakta bahwa ada definisi berbeda dari istilah-istilah ini).

Efek tetap dapat dengan mudah diturunkan dengan menambahkan variabel indikator (biner) untuk setiap kelompok (atau setiap periode waktu atau apa pun yang Anda pikir akan digunakan sebagai efek acak; ini setara dengan transformasi dalam). Ini memungkinkan Anda dengan mudah memperkirakan efek-tetap (yang dapat dilihat sebagai parameter).

Asumsi efek tetap tidak mengharuskan Anda untuk membuat asumsi distribusi efek tetap, Anda dapat dengan mudah memperkirakan varians efek tetap (walaupun ini sangat bising jika jumlah pengamatan dalam setiap kelompok kecil; mereka meminimalkan bias untuk pengeluaran varians yang jauh lebih besar dibandingkan dengan efek-acak karena Anda kehilangan satu derajat kebebasan untuk setiap kelompok dengan menambahkan variabel indikator ini). Anda juga dapat memperkirakan kovariansi antara berbagai set efek tetap, atau antara efek tetap dan kovariat lainnya. Kami telah melakukan itu misalnya dalam sebuah makalah yang disebut Persaingan Kompetitif dan Assortative Matching di Bundesliga Jerman untuk memperkirakan apakah pemain sepakbola yang lebih baik semakin bermain untuk tim yang lebih baik.

Efek acak memerlukan asumsi sebelumnya tentang kovarians. Dalam model efek acak klasik, Anda mengasumsikan bahwa efek acak seperti kesalahan dan tidak tergantung pada kovariat lainnya (sehingga Anda dapat mengabaikannya dan menggunakan OLS dan tetap konsisten meskipun estimasi yang tidak efisien untuk parameter lain jika asumsi dari model efek acak berlaku benar).

Informasi teknis lebih lanjut tersedia di sini . Andrew Gelman juga memiliki banyak pekerjaan yang lebih intuitif tentang hal ini dalam bukunya yang bagus Analisis data menggunakan regresi dan model bertingkat / hierarkis

Arne Jonas Warnke
sumber
1
Saya mengacu pada (varians) parameter varians dari efek acak (lihat edit saya).
statmerkur
2
Saya tidak berpikir ini menjawab pertanyaan.
Amuba kata Reinstate Monica