Pertimbangkan model campuran linier sederhana, misalnya model intersep acak di mana kami memperkirakan ketergantungan pada dalam subjek yang berbeda, dan menganggap bahwa setiap subjek memiliki intersep acak mereka sendiri:Di sini penyadapan dimodelkan sebagai berasal dari distribusi Gaussian dan derau acak juga GaussianDalam sintaks model ini akan ditulis sebagai .x y = a + b x + c i + ϵ . c i c i ∼ N ( 0 , τ 2 ) ϵ ∼ N ( 0 , σ 2 ) .yx
y=a+bx+ci+ϵ.
cici∼N(0,τ2)
ϵ∼N(0,σ2).
lme4
y ~ x + (1|subject)
Penting untuk menulis ulang di atas sebagai berikut:
y∣c∼N(a+bx+c,σ2)c∼N(0,τ2)
Ini adalah cara yang lebih formal untuk menentukan model probabilistik yang sama. Dari formulasi ini kita dapat langsung melihat bahwa efek acak bukan "parameter": mereka adalah variabel acak yang tidak teramati. Jadi bagaimana kita bisa memperkirakan parameter varians tanpa mengetahui nilai-nilai ? ccic
Perhatikan bahwa persamaan pertama di atas menggambarkan distribusi bersyarat dari diberikan . Jika kita mengetahui distribusi dan , maka kita dapat mengerjakan distribusi tanpa syarat dengan mengintegrasikan lebih dari . Anda mungkin tahu itu sebagai Hukum probabilitas total . Jika kedua distribusi adalah Gaussian, maka distribusi tanpa syarat yang dihasilkan juga Gaussian.yccy∣cyc
Dalam hal ini distribusi tanpa syarat hanyalah , tetapi pengamatan kami bukan sampel pertama dari itu karena ada beberapa pengukuran per subjek. Untuk melanjutkan, kita perlu mempertimbangkan distribusi seluruh dimensi vektor dari semua pengamatan: mana adalah matriks blok-diagonal yang terdiri dari dan . Anda meminta intuisi jadi saya ingin menghindari matematika. Poin penting adalah bahwa persamaan ini tidak memilikiN(a+bx,σ2+τ2)ny
y∼N( a + b x,Σ)
Σ = σ2sayan+ τ2sayaN⊗ 1M.σ2τ2clagi!
Inilah yang benar-benar cocok dengan data yang diamati, dan itulah sebabnya orang mengatakan bahwa bukan parameter dari model.
ci
Ketika parameter , , , dan cocok, kita dapat menentukan distribusi kondisional dari untuk setiap . Apa yang Anda lihat dalam output model campuran adalah mode distribusi ini, alias mode kondisional.abτ2σ2cii
Anda dapat dengan mudah memperkirakan parameter varians dan kovarians tanpa mengandalkan efek-acak dengan menggunakan efek-tetap (lihat di sini untuk diskusi efek-tetap vs efek-acak; perhatikan fakta bahwa ada definisi berbeda dari istilah-istilah ini).
Efek tetap dapat dengan mudah diturunkan dengan menambahkan variabel indikator (biner) untuk setiap kelompok (atau setiap periode waktu atau apa pun yang Anda pikir akan digunakan sebagai efek acak; ini setara dengan transformasi dalam). Ini memungkinkan Anda dengan mudah memperkirakan efek-tetap (yang dapat dilihat sebagai parameter).
Asumsi efek tetap tidak mengharuskan Anda untuk membuat asumsi distribusi efek tetap, Anda dapat dengan mudah memperkirakan varians efek tetap (walaupun ini sangat bising jika jumlah pengamatan dalam setiap kelompok kecil; mereka meminimalkan bias untuk pengeluaran varians yang jauh lebih besar dibandingkan dengan efek-acak karena Anda kehilangan satu derajat kebebasan untuk setiap kelompok dengan menambahkan variabel indikator ini). Anda juga dapat memperkirakan kovariansi antara berbagai set efek tetap, atau antara efek tetap dan kovariat lainnya. Kami telah melakukan itu misalnya dalam sebuah makalah yang disebut Persaingan Kompetitif dan Assortative Matching di Bundesliga Jerman untuk memperkirakan apakah pemain sepakbola yang lebih baik semakin bermain untuk tim yang lebih baik.
Efek acak memerlukan asumsi sebelumnya tentang kovarians. Dalam model efek acak klasik, Anda mengasumsikan bahwa efek acak seperti kesalahan dan tidak tergantung pada kovariat lainnya (sehingga Anda dapat mengabaikannya dan menggunakan OLS dan tetap konsisten meskipun estimasi yang tidak efisien untuk parameter lain jika asumsi dari model efek acak berlaku benar).
Informasi teknis lebih lanjut tersedia di sini . Andrew Gelman juga memiliki banyak pekerjaan yang lebih intuitif tentang hal ini dalam bukunya yang bagus Analisis data menggunakan regresi dan model bertingkat / hierarkis
sumber