Model bertingkat vs model terpisah untuk setiap level

10

Apa kelebihan dan kekurangan menjalankan model terpisah vs pemodelan bertingkat?

Lebih khusus lagi, anggaplah sebuah penelitian memeriksa pasien yang bersarang dalam praktik dokter yang bersarang di negara-negara. Apa keuntungan / kerugian dari menjalankan model terpisah untuk masing-masing negara vs model bertingkat tiga?

Peter Flom - Pasang kembali Monica
sumber
2
Secara teknis Anda membutuhkan unit level-3 yang cukup banyak jika Anda akan mendapatkan estimasi parameter yang tidak bias dalam model 3 level (secara umum, ukuran sampel dalam model multilevel sangat penting di level tertinggi), jadi kecuali Anda memiliki sampel besar negara yang acak (mungkin 50+), Anda mungkin harus mempertimbangkan untuk menjalankan model 2-level yang terpisah, atau jika Anda memiliki beberapa negara, Anda dapat mempertimbangkan memperlakukan negara sebagai prediktor level-2 kategorik dalam model 2-level
Patrick Coulombe
Hai @ gung aku pergi, aku akan melihat mereka sekarang.
Peter Flom - Reinstate Monica

Jawaban:

6

Pertanyaannya sudah usang tetapi saya pikir ini sangat penting. Jawaban terbaik yang bisa saya dapatkan adalah dari buku Joop J Hox (2010) "Teknik dan Aplikasi Analisis Multilevel, Edisi Kedua".

Misalkan data hierarki dua tingkat dengan variabel penjelas di tingkat terendah dan variabel penjelas di tingkat tertinggi. Kemudian, di halaman 55, ia menulis:halq

Model regresi tingkat tunggal biasa untuk data yang sama akan memperkirakan hanya intersep, satu varian kesalahan, dan kemunduran regresi p + q. Keunggulan dari model regresi multilevel jelas, jika kita menganggap bahwa data dikelompokkan dalam kelompok. Jika kita memiliki 100 kelompok, memperkirakan model regresi berganda biasa di setiap kelompok secara terpisah membutuhkan perkiraan 100 × (1 regresi mencegat + 1 varians residual + lereng regresi p) ditambah kemungkinan interaksi dengan variabel tingkat kelompok q. Regresi bertingkat menggantikan estimasi 100 intersep dengan memperkirakan rata-rata intersep plus varians residualnya di seluruh kelompok, dengan asumsi distribusi normal untuk residu ini. Jadi, analisis regresi multilevel menggantikan estimasi 100 intersep terpisah dengan memperkirakan dua parameter (rerata dan varians intersep), ditambah asumsi normalitas. Penyederhanaan yang sama digunakan untuk lereng regresi. Alih-alih memperkirakan 100 lereng untuk jenis kelamin variabel penjelas, kami memperkirakan lereng rata-rata beserta variansinya di seluruh kelompok, dan mengasumsikan bahwa distribusi lereng adalah normal. Namun demikian, bahkan dengan jumlah variabel penjelas yang sederhana, analisis regresi bertingkat mengimplikasikan model yang rumit. Secara umum, kami tidak ingin memperkirakan model yang lengkap, pertama karena ini kemungkinan akan membawa kami ke masalah komputasi, tetapi juga karena sangat sulit untuk menafsirkan model yang sedemikian kompleks.

Itu untuk deskripsi. Sekarang halaman 29-30 akan menjawab pertanyaan Anda dengan lebih akurat.

Prediksi intersep dan slope untuk 100 kelas tidak identik dengan nilai yang akan kita dapatkan jika kita melakukan 100 analisis regresi biasa yang terpisah di masing-masing 100 kelas, menggunakan teknik standar biasa kuadrat terkecil (OLS). Jika kita membandingkan hasil dari 100 analisis regresi OLS terpisah dengan nilai yang diperoleh dari analisis regresi multilevel, kita akan menemukan bahwa hasil dari analisis terpisah lebih bervariasi. Ini karena perkiraan bertingkat dari koefisien regresi dari 100 kelas adalah tertimbang. Mereka disebut Empirical Bayes (EB) atau estimasi penyusutan: rata-rata tertimbang dari estimasi OLS spesifik di setiap kelas dan koefisien regresi keseluruhan, diperkirakan untuk semua kelas yang serupa.

Akibatnya, koefisien regresi menyusut kembali ke koefisien rata-rata untuk seluruh kumpulan data. Bobot penyusutan tergantung pada reliabilitas estimasi koefisien. Koefisien yang diperkirakan dengan akurasi kecil menyusut lebih dari koefisien yang diperkirakan dengan sangat akurat. Keakuratan estimasi tergantung pada dua faktor: ukuran sampel grup, dan jarak antara estimasi berbasis grup dan estimasi keseluruhan. Estimasi untuk kelompok kecil kurang dapat diandalkan, dan menyusut lebih dari perkiraan untuk kelompok besar. Hal-hal lain dianggap sama, estimasi yang sangat jauh dari estimasi keseluruhan dianggap kurang dapat diandalkan, dan lebih kecil dari estimasi yang mendekati rata-rata keseluruhan. Metode statistik yang digunakan disebut estimasi empiris Bayes. Karena efek penyusutan ini, penduga Bayes empiris bias. Namun, mereka biasanya lebih tepat, sebuah properti yang seringkali lebih berguna daripada menjadi tidak memihak (lihat Kendall, 1959).

Saya harap ini memuaskan.

Meng Hu
sumber
2

Menentukan efek acak melibatkan asumsi bahwa rata-rata level tersebut adalah sampel dari distribusi normal. Lebih baik untuk menentukan mereka sebagai efek tetap, variabel dummy AKA jika asumsi ini tidak sesuai dengan data Anda. Dengan cara ini Anda mengendalikan heterogenitas berkelompok dalam mean (pada tingkat itu), tetapi Anda TIDAK mengizinkan heterogenitas dalam respons terhadap variabel tingkat yang lebih rendah.

Jika Anda mengharapkan heterogenitas sebagai respons terhadap variabel penjelas tingkat rendah Anda, model terpisah masuk akal, kecuali jika Anda ingin menjalankan semacam model koefisien acak (yang lagi-lagi melibatkan asumsi bahwa koefisien terdistribusi secara normal).

(Saya percaya ada metode untuk efek acak non-normal, tetapi tidak ada yang banyak digunakan atau dapat diakses seperti lme)

generic_user
sumber
1

Keuntungan: Kemampuan untuk secara eksplisit menguji perbedaan dalam parameter oleh cluster (yaitu perbedaan signifikansi tidak berarti perbedaan signifikan).

DL Dahly
sumber
2
Jawaban ini terlalu pendek. Lebih banyak komentar daripada jawaban.
Eric Peterson