GEE: memilih struktur korelasi kerja yang tepat

19

Saya adalah seorang ahli epidemiologi yang mencoba memahami GEE untuk menganalisis studi kohort dengan benar (menggunakan regresi Poisson dengan tautan log, untuk memperkirakan Risiko Relatif). Saya punya beberapa pertanyaan tentang "korelasi kerja" yang saya ingin seseorang lebih berpengetahuan untuk menjelaskan:

(1) Jika saya memiliki pengukuran berulang pada individu yang sama, apakah biasanya paling masuk akal untuk mengambil struktur yang dapat ditukar? (Atau autoregresif jika pengukuran menunjukkan tren)? Bagaimana dengan independensi - adakah kasus di mana seseorang dapat mengasumsikan independensi untuk pengukuran pada individu yang sama?

(2) Apakah ada cara (yang cukup sederhana) untuk menilai struktur yang tepat dengan memeriksa data?

(3) Saya perhatikan bahwa, ketika memilih struktur independensi, saya mendapatkan estimasi titik yang sama (tetapi kesalahan standar yang lebih rendah) seperti ketika menjalankan regresi Poisson sederhana (menggunakan R, fungsi glm()dan geeglm()dari paket geepack). Mengapa ini terjadi? Saya mengerti bahwa dengan GEE Anda memperkirakan model rata-rata populasi (berbeda dengan subjek tertentu) sehingga Anda harus mendapatkan estimasi titik yang sama hanya dalam kasus regresi linier.

(4) Jika kohort saya ada di beberapa lokasi lokasi (tetapi satu pengukuran per individu), haruskah saya memilih independensi atau korelasi kerja yang dapat ditukar, dan mengapa? Maksud saya, individu di setiap situs masih independen satu sama lain, kan ?? Jadi untuk model subjek tertentu, misalnya, saya akan menentukan situs sebagai efek acak. Namun dengan GEE, independensi dan pertukaran dapat memberikan estimasi yang berbeda dan saya tidak yakin mana yang lebih baik dalam hal asumsi yang mendasarinya.

(5) Dapatkah GEE menangani pengelompokan hierarki 2 tingkat, yaitu kohort multi-lokasi dengan tindakan berulang per individu? Jika ya, apa yang harus saya tentukan sebagai variabel pengelompokan geeglm()dan apa yang seharusnya menjadi korelasi kerja jika seseorang mengasumsikan misalnya "kemerdekaan" untuk tingkat pertama (situs) dan "dapat ditukar" atau "autoregresif" untuk tingkat kedua (individu)?

Saya mengerti ini adalah beberapa pertanyaan, dan beberapa dari mereka mungkin cukup mendasar, tetapi masih sangat sulit bagi saya (dan mungkin pemula lainnya?) Untuk dipahami. Jadi, bantuan apa pun sangat dihargai dan dengan tulus, dan untuk menunjukkan ini saya telah memulai sebuah karunia.

Theodore Lytras
sumber

Jawaban:

12
  1. Belum tentu. Dengan kluster kecil, desain tidak seimbang, dan penyesuaian confounder dalam klaster yang tidak lengkap, korelasi yang dapat dipertukarkan mungkin lebih tidak efisien dan relatif bias dibandingkan GEE kemerdekaan. Asumsi itu bisa agak kuat juga. Namun, ketika asumsi tersebut dipenuhi, Anda mendapatkan kesimpulan yang lebih efisien dengan yang dapat ditukar. Saya belum pernah menemukan contoh ketika struktur korelasi AR-1 masuk akal, karena jarang memiliki pengukuran yang seimbang dalam waktu (saya bekerja dengan data subyek manusia).

  2. Nah, mengeksplorasi korelasi itu baik dan harus dilakukan dalam analisis data. Namun, itu seharusnya tidak memandu pengambilan keputusan. Anda dapat menggunakan variogram dan lorellogram untuk memvisualisasikan korelasi dalam studi longitudinal dan panel. Korelasi Intracluster adalah pengukuran yang baik dari tingkat korelasi dalam kelompok.

  3. Struktur korelasi di GEE, tidak seperti model campuran, tidak memengaruhi estimasi parameter marginal (yang Anda perkirakan dengan GEE). Itu memang mempengaruhi estimasi kesalahan standar. Ini tidak tergantung pada fungsi tautan apa pun. Fungsi tautan di GEE adalah untuk model marginal.

  4. Situs dapat menjadi sumber variasi yang tidak terukur, seperti gigi di dalam mulut, atau siswa di dalam distrik sekolah. Ada potensi untuk pembaur tingkat klaster dalam data ini, seperti kecenderungan genetik terhadap kerusakan gigi atau pendanaan pendidikan masyarakat, jadi untuk alasan itu, Anda akan mendapatkan perkiraan kesalahan standar yang lebih baik dengan menggunakan struktur korelasi yang dapat ditukar.

  5. Perhitungan efek marginal dalam GEE rumit ketika mereka tidak disarangkan tetapi bisa dilakukan . Bersarang itu mudah, dan Anda melakukan apa yang Anda katakan.

AdamO
sumber
(Mengenai # 5) Jadi dalam kasus nested clustering, seseorang hanya memilih variabel cluster tingkat atas dan hanya itu?
Theodore Lytras
Tidak, Anda dapat membuat struktur korelasi dua tingkat yang dapat dipertukarkan dan secara konsisten memperkirakan dua parameter korelasi terpisah untuk korelasi menggunakan algoritma EM 3 langkah. Dengan begitu, Anda akan tahu bahwa anak-anak dalam masyarakat berkorelasi, tetapi tidak berkorelasi seperti anak-anak dalam rumah tangga.
AdamO
Maaf, saya tidak mengerti ini. Bisakah Anda mengarahkan saya ke beberapa kode, terutama di R atau Stata? Saya kira itu akan membantu.
Theodore Lytras
1
@ TheodoreLytras maaf, saya salah. Pernyataan Anda sebelumnya benar. Dari makalah yang saya tautkan, "Selain itu, jika beberapa kluster bersarang dengan sempurna, pengelompokan GEE pada klaster tingkat atas menyumbang struktur korelasi bertingkat melalui penaksir varians sandwich".
AdamO
1
Mungkin Anda bermaksud sesuatu yang lain, tetapi ketika Anda menyatakan "Struktur korelasi di GEE, tidak seperti model campuran, tidak memengaruhi estimasi parameter marginal", saya pikir ini tidak benar. Setidaknya, jika Anda maksudkan bahwa koefisien tidak berubah dengan memilih matriks korelasi kerja yang berbeda, ini bukan yang terjadi: matriks korelasi bekerja melalui dalam matriks pembobotan dan mempengaruhi matriks kovarians serta koefisien.
Nick
6

(1) Anda mungkin akan membutuhkan semacam struktur autoregresif, hanya karena kami berharap pengukuran yang dilakukan lebih jauh menjadi kurang berkorelasi daripada yang diambil lebih dekat bersama-sama. Tukar akan menganggap mereka semua berkorelasi sama. Tapi seperti yang lainnya, itu tergantung.

(2) Saya pikir keputusan semacam ini datang ke memikirkan tentang bagaimana data dihasilkan, daripada melihat bagaimana mereka terlihat.

(4) itu tergantung. Misalnya, anak-anak yang bersarang di sekolah tidak boleh, dalam banyak kasus, diperlakukan sebagai orang yang mandiri. Karena pola sosial, dll, jika saya tahu sesuatu tentang seorang anak di sekolah tertentu, maka saya mungkin tahu setidaknya sedikit tentang anak-anak lain di sekolah. Saya pernah menggunakan GEE untuk melihat hubungan antara berbagai indikator sosial dan ekonomi dan prevalensi obesitas dalam kelompok kelahiran di mana para peserta bersarang di lingkungan. Saya menggunakan struktur yang bisa ditukar. Anda dapat menemukan makalah di sini dan memeriksa beberapa referensi, termasuk 2 dari jurnal epi.

(5) Rupanya begitu (mis. Lihat contoh ini ), tapi saya tidak bisa membantu dengan specfics R melakukan ini.

Zeger SL, Liang KY, Albert PS. Model untuk data longitudinal: pendekatan persamaan estimasi umum. Biometrik. 1988; 44: 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE atau tidak ke GEE: membandingkan fungsi estimasi dan metode berbasis kemungkinan untuk memperkirakan asosiasi antara lingkungan dan kesehatan. Epidemiologi. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Analisis statistik data berkorelasi menggunakan persamaan estimasi umum: suatu orientasi. Am J Epidemiol. 2003; 157: 364.

DL Dahly
sumber
Ini memang membantu, tetapi itu membuat saya bertanya-tanya mengapa ada orang yang kemudian menggunakan struktur kemandirian, karena pengelompokan per se menyiratkan tingkat kesamaan antara pengamatan. Namun, saya mendapat kesan bahwa dalam kasus sekolah, kesamaannya ada hubungannya dengan sekolah lain , dan di dalam setiap sekolah siswa akan mandiri. Jadi saya masih belum begitu jelas tentang itu.
Theodore Lytras
Ya, jika Anda membatasi pemodelan sampel dan subseqeuent Anda ke satu sekolah, jangan khawatir. Dalam hal ini akan lebih dibenarkan untuk menganggap kesalahan itu benar. Tetapi begitu Anda mulai menggabungkan anak-anak dari sekolah yang berbeda ke dalam sampel / model yang sama, asumsi itu menjadi tidak masuk akal, kecuali jika Anda memperhitungkan sekolah dalam model tersebut, yaitu sehingga kesalahan yang bersyarat pada sekolah diasumsikan iid.
DL Dahly
Perlu juga dicatat bahwa orang mungkin lebih membantu Anda jika Anda bisa memberikan beberapa rincian mengenai ukuran sampel, jumlah dan waktu tindakan berulang, jumlah cluster, dll.
DL Dahly
2
@DLDahly poin Anda dalam (1) bukan sesuatu yang sering saya temukan dalam analisis panel biostatistik. Salah satu asumsi di balik struktur korelasi AR-N adalah bahwa, diberikan waktu yang cukup di antara mereka, dua pengukuran pada individu yang sama akan sama tidak berkorelasi dengan dua pengukuran antara individu yang berbeda. Namun, pembaur utama antar-kluster yang mendasar sering kali bukan kovariat yang bervariasi waktu (seperti penanda genetik), dan mengasumsikan sebaliknya sangat sulit (jika bukan tidak mungkin) untuk dinilai. Lorrelogram adalah tempat yang sangat bagus untuk memulai.
AdamO
1

(0) Komentar umum: sebagian besar model yang saya lihat pada crossvalidated terlalu rumit. Sederhanakan jika memungkinkan. Sering pemodelan yang layak dengan GEE dan model campuran untuk membandingkan hasil.
(1) Ya. Pilih yang bisa ditukar. Jawaban saya yang tidak ambigu didasarkan pada manfaat GEE yang paling banyak dipuji: ketahanan perkiraan terhadap asumsi yang dibuat.
Jika Anda melihat studi di bidang Anda, Anda akan melihat bahwa exch adalah opsi default. Itu tidak berarti itu yang terbaik, tetapi harus menjadi yang pertama untuk dipertimbangkan. Penasihat exch akan menjadi saran terbaik tanpa memiliki pengetahuan rinci tentang data Anda.
(2) Ya, ada pendekatan berbasis data seperti "QIC". Ini adalah contoh Stata, tetapi diterima secara luas sebagai pilihan yang masuk akal, meskipun sangat jarang digunakan dalam praktik:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Estimasi titik tidak pernah sama persis (kecuali jika Anda menggunakan struktur korelasi indep), tetapi biasanya cukup dekat. Anda dapat menemukan banyak artikel yang membandingkan perkiraan model efek sederhana / gee / campuran untuk merasakan ini ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Sebagian besar buku teks juga memiliki meja atau dua untuk ini. Untuk struktur korelasi independen Anda pada dasarnya menjalankan model poisson dengan Ss kuat. Jadi perkiraannya akan sama persis. SE biasanya lebih besar. Tetapi kadang-kadang SE yang kuat lebih kecil (yaitu kehidupan: google dengan memberikan penjelasan tanpa rasa sakit jika tertarik)
(4) Lihat (1) dan (2) di atas.
(5) Tidak. Atau lebih baik dinyatakan, Anda dapat melakukan apa saja jika Anda melakukan cukup usaha tetapi sangat jarang sepadan dengan usaha.

charles
sumber
0

Anda menggunakan pendekatan yang salah dengan gee untuk melakukan apa yang Anda lakukan karena Anda tidak tahu strukturnya dan hasil Anda kemungkinan besar akan dikacaukan. Lihat Jamie Robinson ini. Anda harus menggunakan yang lama. TMLE (mark van der laan) atau mungkin gee dengan bobot iptw. Tidak memperhitungkan korelasi tidak meremehkan varians. Bayangkan saja jika semua pengukuran berulang berkorelasi 100%, maka Anda akan secara efektif memiliki pengamatan yang jauh lebih sedikit (pada dasarnya hanya n untuk n subjek Anda) dan lebih kecil n berarti varians yang lebih tinggi.

Jonathan Levy
sumber
Jika Anda memiliki jenis hasil yang tidak bertahan hidup, Anda dapat menggunakan pendekatan gee dengan struktur kor independen dan bobot iptw seperti yang disarankan untuk perkiraan yang tidak bias, dengan asumsi Anda mendapatkan skor kecenderungan dengan benar. TMLE paling baik dalam semua kasus, bertahan hidup atau tidak karena Anda dapat menggunakan pembelajaran ensemble untuk memprediksi skor kecenderungan dan regresi berurutan dan masih mendapatkan inferensi yang efisien. Pendekatan Anda pasti akan bias dan memberikan kesimpulan yang salah dan semakin besar ukuran sampel Anda, jika tidak ada efek, Anda kemungkinan akan menunjukkan efek signifikan yang salah !!
Jonathan Levy
Ini bisa menggunakan lebih banyak detail. Apa itu Janie Robinson? Makalah mana karya van der Laan?
mdewey
@ Maaf, salah ketik, maksudnya Jamie Robins. Coba Robins, hernan, Babette 2000 model struktural marjinal dan inferensial kausal - metode hebat di sana untuk hasil non-survival termasuk cara melakukan msm dengan pengubah efek. Untuk laan, referensi buku, pembelajaran yang ditargetkan. Seperti yang saya katakan, laan mungkin yang terbaik tetapi butuh lebih banyak untuk mengerti. Paket R, Ltmle melakukan metodologi ini tetapi membutuhkan waktu untuk belajar.
Jonathan Levy