Perbedaan antara model linier umum & model campuran linier umum

Saya bertanya-tanya apa perbedaan antara GLM campuran dan tidak dicampur. Misalnya, di SPSS menu tarik turun memungkinkan pengguna untuk masuk:

analyze-> generalized linear models-> generalized linear models &
analyze-> mixed models-> generalized linear

Apakah mereka menangani nilai-nilai yang hilang secara berbeda?

Variabel dependen saya adalah biner dan saya memiliki beberapa variabel independen kategori dan kontinu.

mixed-model generalized-linear-model glmm gee pengguna9203
sumber

Pertanyaan-pertanyaan CV berikut juga membahas hubungan antara GEE & GLiMM: Apa perbedaan antara persamaan estimasi umum dan GLMM ; Kapan harus menggunakan persamaan estimasi umum vs model efek campuran?

gung - Reinstate Monica

Munculnya model linier umum telah memungkinkan kami untuk membangun model tipe regresi data ketika distribusi variabel respon tidak normal - misalnya, ketika DV Anda adalah biner. (Jika Anda ingin tahu lebih banyak tentang GLiMs, saya menulis jawaban yang cukup luas di sini , yang mungkin berguna meskipun konteksnya berbeda.) Namun, GLiM, misalnya model regresi logistik, mengasumsikan bahwa data Anda independen . Misalnya, bayangkan sebuah penelitian yang meneliti apakah seorang anak menderita asma. Setiap anak berkontribusi satudata menunjukkan penelitian - mereka memiliki asma atau tidak. Namun, terkadang data tidak independen. Pertimbangkan penelitian lain yang meneliti apakah seorang anak menderita flu di berbagai titik selama tahun sekolah. Dalam hal ini, setiap anak berkontribusi banyak poin data. Pada suatu waktu seorang anak mungkin pilek, kemudian mereka mungkin tidak, dan masih kemudian mereka mungkin pilek lagi. Data ini tidak independen karena mereka berasal dari anak yang sama. Untuk menganalisis data ini dengan tepat, kita perlu memperhitungkan ketidak-independenan ini. Ada dua cara: Salah satu caranya adalah dengan menggunakan persamaan estimasi umum (yang tidak Anda sebutkan, jadi kami akan lewati). Cara lain adalah dengan menggunakan model campuran linier umum. GLiMM dapat menjelaskan non-kemerdekaan dengan menambahkan efek acak (seperti catatan @MichaelChernick). Dengan demikian, jawabannya adalah bahwa pilihan kedua Anda adalah untuk data berulang yang tidak normal (atau tidak independen). (Saya harus menyebutkan, sesuai dengan komentar @ Makro ini, yang umum- terwujud linear model campuran Namun termasuk model linear sebagai kasus khusus dan dengan demikian dapat digunakan dengan data terdistribusi normal., Dalam penggunaan khas berkonotasi jangka data non-normal.)

Pembaruan: (OP telah bertanya tentang GEE juga, jadi saya akan menulis sedikit tentang bagaimana ketiganya berhubungan satu sama lain.)

Berikut ini gambaran dasar:

GLiM yang khas (saya akan menggunakan regresi logistik sebagai kasus prototipikal) memungkinkan Anda memodelkan respons biner independen sebagai fungsi kovariat
GLMM memungkinkan Anda memodelkan respons biner non-independen (atau berkerumun) pada atribut masing-masing cluster sebagai fungsi kovariat
GEE memungkinkan Anda memodelkan respons rata-rata populasi dari data biner yang tidak independen sebagai fungsi kovariat

Karena Anda memiliki beberapa uji coba per peserta, data Anda tidak independen; seperti yang Anda catat dengan benar, "real di dalam satu peserta cenderung lebih mirip daripada dibandingkan dengan seluruh kelompok". Karena itu, Anda harus menggunakan GLMM atau GEE.

Masalahnya, kemudian, adalah bagaimana memilih apakah GLMM atau GEE akan lebih sesuai untuk situasi Anda. Jawaban untuk pertanyaan ini tergantung pada subjek penelitian Anda - khususnya, target kesimpulan yang ingin Anda buat. Seperti yang saya nyatakan di atas, dengan GLMM, beta-beta tersebut memberi tahu Anda tentang efek satu unit perubahan pada kovariat Anda pada peserta tertentu, dengan karakteristik masing-masing. Di sisi lain dengan GEE, beta memberi tahu Anda tentang efek satu unit perubahan dalam kovariat Anda pada rata-rata tanggapan seluruh populasi yang bersangkutan. Ini adalah perbedaan yang sulit untuk dipahami, terutama karena tidak ada perbedaan dengan model linier (dalam hal ini keduanya adalah hal yang sama).

logit ({hal}_{saya}) = β_{0} + β_{1} X_{1} + b_{saya}

$\text{logit}(p_i)=\beta_{0}+\beta_{1}X_1+b_i$

logit (hal) = dalam (\frac{hal}{1 - hal}), & b \sim N (0, σ_{b}^{2})

$\text{logit}(p)=\ln\left(\frac{p}{1-p}\right),~~~~~\&~~~~~~b\sim\mathcal N(0,\sigma^2_b)$

p

$p$

β_{0}

$\beta_0$

(β_{0} + b_{i})

$(\beta_0+b_i)$

b_{i}

$b_i$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

p_{i}

$p_i$

logit

$\text{logit}$ masukkan deskripsi gambar di sini

β_{1}

$\beta_1$ --yang sama untuk setiap siswa (yaitu, tidak ada kemiringan acak). Perhatikan, bagaimanapun, bahwa kemampuan dasar siswa berbeda di antara mereka - mungkin karena perbedaan dalam hal-hal seperti IQ (yaitu, ada intersepsi acak). Probabilitas rata-rata untuk kelas secara keseluruhan, bagaimanapun, mengikuti profil yang berbeda dari siswa. Hasil yang sangat berlawanan dengan intuisi adalah ini: satu jam tambahan pengajaran dapat memiliki efek yang cukup besar pada probabilitas setiap siswa yang lulus ujian, tetapi memiliki efek yang relatif kecil pada kemungkinan proporsi total siswa yang lulus . Ini karena beberapa siswa mungkin sudah memiliki peluang besar untuk lulus sementara yang lain mungkin masih memiliki sedikit peluang.

Pertanyaan apakah Anda harus menggunakan GLMM atau GEE adalah pertanyaan fungsi mana yang ingin Anda perkirakan. Jika Anda ingin tahu tentang kemungkinan kelulusan siswa tertentu (jika, katakanlah, Anda adalah siswa, atau orang tua siswa), Anda ingin menggunakan GLMM. Di sisi lain, jika Anda ingin tahu tentang pengaruhnya terhadap populasi (jika, misalnya, Anda adalah guru , atau kepala sekolah), Anda ingin menggunakan GEE.

Untuk diskusi lain yang lebih rinci secara matematis dari bahan ini, lihat jawaban ini oleh @ Macro.

gung - Reinstate Monica
sumber

Ini adalah jawaban yang baik tetapi saya pikir itu, terutama kalimat terakhir, hampir menunjukkan bahwa Anda hanya menggunakan GLM atau GLMM untuk data tidak normal yang mungkin tidak dimaksudkan, karena model linear (campuran) Gaussian biasa juga termasuk dalam kategori GL (M) M.

Makro

@ Macro, Anda benar, saya selalu lupa itu. Saya mengedit jawaban untuk mengklarifikasi ini. Beri tahu saya jika menurut Anda itu perlu lebih.

gung - Reinstate Monica

Saya juga memeriksa persamaan estimasi umum. Benarkah seperti halnya dengan GLiM, GEE berasumsi bahwa data saya independen? Saya memiliki beberapa uji coba per peserta. Uji coba dalam satu peserta cenderung lebih mirip daripada dibandingkan dengan seluruh kelompok.

user9203

@ung, Meskipun GEE dapat menghasilkan koefisien "populasi-rata-rata", jika saya ingin memperkirakan Efek Perawatan Rata - rata (ATE) pada skala probabilitas di seluruh populasi aktual, untuk regresi biner minat, tidakkah saya perlu mengambil pendekatan subjek-spesifik? Cara untuk menghitung ATE, setahu saya, adalah memperkirakan probabilitas yang diperkirakan untuk setiap orang dengan dan tanpa pengobatan dan kemudian meratakan perbedaan-perbedaan tersebut. Bukankah ini memerlukan metode regresi yang dapat menghasilkan probabilitas yang diprediksi untuk setiap orang (meskipun faktanya mereka kemudian dirata-rata)?

Yakkanomica

@Yakkanomica, jika itu yang Anda inginkan, tentu saja.

gung - Reinstate Monica

Perbedaan antara model linier umum & model campuran linier umum

Jawaban: