Apa perbedaan antara GLM dan GEE?

9

Apa perbedaan antara model GLM (regresi logistik) dengan variabel respon biner yang mencakup subjek dan waktu sebagai kovariat dan model GEE analog yang memperhitungkan korelasi antara pengukuran pada berbagai titik waktu?

GLM saya terlihat seperti:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

dengan fungsi tautan logit.

Saya mencari penjelasan sederhana (ditujukan untuk ilmuwan sosial) tentang bagaimana dan mengapa waktu diperlakukan secara berbeda dalam dua model dan apa implikasinya untuk interpretasi.

N26
sumber
6
Saya menemukan tanggapan tersebut untuk pertanyaan terkait ( Apa perbedaan antara persamaan estimasi umum dan GLMM ? , Kapan menggunakan persamaan estimasi umum vs model efek campuran ) sangat komprehensif, meskipun mereka tentang GLM dengan efek acak vs. GEE.
chl
1
Apakah Anda benar-benar ingin menyesuaikan id subjek sebagai kovariat berkelanjutan? Tampaknya aneh untuk memiliki variabel respons menjadi fungsi id yang meningkat atau menurun.
tamu
Populasi rata-rata efek vs efek spesifik subjek.
Will
inilah tautan ke artikel yang membahas perbedaan di antara keduanya. aje.oxfordjournals.org/content/147/7/694.full.pdf+html
Will
1
Selain pertanyaan @chl tautan ke atas, pertanyaan ini juga membahas ide-ide ini: Perbedaan antara model linear umum & model campuran linier umum dalam SPSS .
gung - Reinstate Monica

Jawaban:

12

Mungkin ada jawaban yang lebih baik dan lebih terperinci di luar sana, tetapi saya dapat memberikan Anda beberapa pemikiran sederhana dan cepat. Tampaknya Anda berbicara tentang menggunakan Generalized Linear Model (misalnya, regresi logistik khas) agar sesuai dengan data yang dikumpulkan dari beberapa subjek pada beberapa titik waktu. Pada blush on pertama, saya melihat dua masalah mencolok dengan pendekatan ini.

Pertama, model ini mengasumsikan bahwa data Anda independen mengingat kovariat (yaitu, setelah memperhitungkan kode dummy untuk setiap subjek, mirip dengan istilah intersep individu, dan tren waktu linier yang sama untuk semua orang). Ini sangat tidak mungkin benar. Alih-alih, hampir pasti akan ada autokorelasi, misalnya, dua pengamatan dari individu yang lebih dekat dalam waktu akan lebih mirip daripada dua pengamatan yang terpisah dalam waktu, bahkan setelah memperhitungkan waktu . (Meskipun mereka mungkin independen jika Anda juga memasukkan subject ID x timeinteraksi - yaitu, tren waktu yang unik untuk semua orang - tetapi ini akan memperburuk masalah berikutnya.)

Kedua, Anda akan membakar sejumlah besar derajat kebebasan dengan memperkirakan parameter untuk setiap peserta. Anda cenderung memiliki sedikit tingkat kebebasan yang tersisa untuk mencoba memperkirakan parameter minat Anda secara akurat (tentu saja, ini tergantung pada berapa banyak pengukuran yang Anda miliki per orang).

Ironisnya, masalah pertama berarti interval kepercayaan Anda terlalu sempit, sedangkan yang kedua berarti CI Anda akan jauh lebih luas daripada jika Anda tidak menyia-nyiakan sebagian besar derajat kebebasan Anda. Namun, saya tidak akan mengandalkan keduanya untuk saling menyeimbangkan. Untuk apa nilainya, saya percaya bahwa estimasi parameter Anda tidak bias (walaupun saya mungkin salah di sini).

Menggunakan Persamaan Pengestimasian Umum sesuai dalam kasus ini. Bila Anda cocok dengan model menggunakan GEE, Anda menentukan struktur korelasional (seperti AR (1)), dan dapat menjadi cukup masuk akal bahwa data Anda independen tergantung pada kedua kovariat Anda dan matriks korelasi yang Anda tentukan. Selain itu, GEE memperkirakan asosiasi populasi berarti, jadi Anda tidak perlu membakar derajat kebebasan untuk setiap peserta - pada dasarnya Anda rata-rata atas mereka.

Adapun interpretasi, sejauh yang saya tahu, itu akan sama dalam kedua kasus: mengingat bahwa faktor-faktor lain tetap konstan, perubahan satu unit dalam X3 dikaitkan dengan perubahan B3 dalam peluang log 'peluang' .

gung - Pasang kembali Monica
sumber