Saya menganalisis data pada 300.000 siswa di 175 sekolah dengan model efek linear campuran logistik (penyadapan acak). Setiap murid terjadi tepat sekali dan datanya merentang 6 tahun.
Bagaimana cara memisahkan varians antara tingkat sekolah dan murid, dengan cara yang mirip dengan VPC / ICC untuk hasil yang berkelanjutan? Saya telah melihat artikel ini yang mengusulkan 4 metode, dimana A dan B tampak menarik bagi saya, tetapi saya ingin tahu apa kelebihan / kekurangan yang mungkin ada dalam menggunakan salah satu dari ini, dan tentu saja jika ada cara lain untuk melakukan Itu.
Bagaimana saya bisa membandingkan varian residual tingkat sekolah dari tahun ke tahun (atau periode waktu lainnya)? Sejauh ini saya telah melakukan ini dengan membagi data berdasarkan tahun dan menjalankan model terhadap setiap tahun data tetapi saya pikir ini cacat karena: i) tidak ada alasan yang jelas mengapa saya harus dibagi dengan tahun ; dan ii) karena perkiraan efek tetap berbeda untuk setiap tahun, membandingkan efek acak dari tahun ke tahun mungkin tidak masuk akal (ini hanya intuisi saya akan lebih baik jika seseorang dapat menjelaskan ini secara lebih formal, jika itu benar).
CATATAN: Saya menulis kembali pertanyaan ini setelah diskusi dalam meta dengan whuber dan Macro
sumber
Jawaban:
Misalkan menunjukkan respons dan vektor prediktor (masing-masing) siswa i di sekolah jysaya j, xsaya j saya j .
(1) Untuk data biner, saya pikir cara standar untuk melakukan dekomposisi varians analog dengan yang dilakukan untuk data kontinu adalah apa yang penulis sebut Metode D (saya akan mengomentari metode lain di bawah ini) di tautan Anda - membayangkan data biner sebagai timbul dari variabel kontinu yang mendasarinya yang diatur oleh model linear dan menguraikan varians pada skala laten itu. Alasannya adalah bahwa model logistik (dan GLM lainnya) secara alami muncul dengan cara ini -
Untuk melihat ini, tentukany⋆saya j sedemikian rupa sehingga diatur oleh model campuran linier:
di mana adalah koefisien regresi, η j ∼ N ( 0 , σ 2 ) adalah efek acak tingkat sekolah dan ε iα , β ηj∼ N( 0 , σ2) adalah istilah varians residual dan memilikidistribusi logistikstandarεsaya j . Sekarang mari
biarkanpij=P(yij=1|xij,ηj) sekarang, cukup menggunakan CDF logistik yang kita miliki
sekarang mengambil transformasi logit dari kedua belah pihak, Anda miliki
yang persis model efek campuran logistik. Jadi, model logistik setara dengan model variabel laten yang ditentukan di atas. Satu catatan penting:
Sekarang, jika Anda menggunakan model ini dan kemudian kuantitasnya
memperkirakan korelasi intraclass dari variabel laten yang mendasarinya . Catatan penting lainnya:
Regarding the other methods mentioned in the paper you linked:
(A) I've never seen the linearization method, but one drawback I can see is that there's no indication of the approximation error incurred by this. In addition, if you're going to linearize the model (through a potentially crude approximation), why not just use a linear model in the first place (e.g. option (C), which I'll get to in a minute)? It would also be more complicated to present since the ICC would depend onxij .
(B) The simulation method is intuitively appealing to a statistician since it would give you an estimated variance decomposition on the original scale of the data but, depending on the audience, it may (i) be complicated to describe this in your "methods" section and (ii) may turn off a reviewer who was looking for something "more standard"
(C) Pretending the data is continuous is probably not a great idea, although it won't perform terribly if most of the probabilities are not too close to 0 or 1. But, doing this would almost certainly raise a red flag to a reviewer so I'd stay away.
Now finally,
(2) Jika efek tetap sangat berbeda di seluruh tahun, maka Anda benar untuk berpikir bahwa itu bisa sulit untuk membandingkan varians efek acak di seluruh tahun, karena mereka berpotensi pada skala yang berbeda (ini terkait dengan non-pengidentifikasian masalah penskalaan yang disebutkan di atas).
Jika Anda ingin menjaga efek tetap dari waktu ke waktu (namun, jika Anda melihat mereka berubah banyak dari waktu ke waktu, Anda mungkin tidak ingin melakukan itu) tetapi melihat perubahan dalam varian efek acak, Anda dapat menjelajahi efek ini menggunakan beberapa acak variabel slope dan dummy. Misalnya, jika Anda ingin melihat apakah ICC berbeda di tahun yang berbeda, Anda bisa membiarkannyasayak= 1 jika observasi dilakukan tahun k dan 0 sebaliknya dan kemudian modelkan prediktor linier Anda sebagai
this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor
but I don't recommend this, since that will only allow your associations to increase over time, not decrease.
sumber