Saya adalah seorang ahli epidemiologi yang mencoba memahami GEE untuk menganalisis studi kohort dengan benar (menggunakan regresi Poisson dengan tautan log, untuk memperkirakan Risiko Relatif). Saya punya beberapa pertanyaan tentang "korelasi kerja" yang saya ingin seseorang lebih berpengetahuan untuk menjelaskan:
(1) Jika saya memiliki pengukuran berulang pada individu yang sama, apakah biasanya paling masuk akal untuk mengambil struktur yang dapat ditukar? (Atau autoregresif jika pengukuran menunjukkan tren)? Bagaimana dengan independensi - adakah kasus di mana seseorang dapat mengasumsikan independensi untuk pengukuran pada individu yang sama?
(2) Apakah ada cara (yang cukup sederhana) untuk menilai struktur yang tepat dengan memeriksa data?
(3) Saya perhatikan bahwa, ketika memilih struktur independensi, saya mendapatkan estimasi titik yang sama (tetapi kesalahan standar yang lebih rendah) seperti ketika menjalankan regresi Poisson sederhana (menggunakan R, fungsi glm()
dan geeglm()
dari paket geepack
). Mengapa ini terjadi? Saya mengerti bahwa dengan GEE Anda memperkirakan model rata-rata populasi (berbeda dengan subjek tertentu) sehingga Anda harus mendapatkan estimasi titik yang sama hanya dalam kasus regresi linier.
(4) Jika kohort saya ada di beberapa lokasi lokasi (tetapi satu pengukuran per individu), haruskah saya memilih independensi atau korelasi kerja yang dapat ditukar, dan mengapa? Maksud saya, individu di setiap situs masih independen satu sama lain, kan ?? Jadi untuk model subjek tertentu, misalnya, saya akan menentukan situs sebagai efek acak. Namun dengan GEE, independensi dan pertukaran dapat memberikan estimasi yang berbeda dan saya tidak yakin mana yang lebih baik dalam hal asumsi yang mendasarinya.
(5) Dapatkah GEE menangani pengelompokan hierarki 2 tingkat, yaitu kohort multi-lokasi dengan tindakan berulang per individu? Jika ya, apa yang harus saya tentukan sebagai variabel pengelompokan geeglm()
dan apa yang seharusnya menjadi korelasi kerja jika seseorang mengasumsikan misalnya "kemerdekaan" untuk tingkat pertama (situs) dan "dapat ditukar" atau "autoregresif" untuk tingkat kedua (individu)?
Saya mengerti ini adalah beberapa pertanyaan, dan beberapa dari mereka mungkin cukup mendasar, tetapi masih sangat sulit bagi saya (dan mungkin pemula lainnya?) Untuk dipahami. Jadi, bantuan apa pun sangat dihargai dan dengan tulus, dan untuk menunjukkan ini saya telah memulai sebuah karunia.
(1) Anda mungkin akan membutuhkan semacam struktur autoregresif, hanya karena kami berharap pengukuran yang dilakukan lebih jauh menjadi kurang berkorelasi daripada yang diambil lebih dekat bersama-sama. Tukar akan menganggap mereka semua berkorelasi sama. Tapi seperti yang lainnya, itu tergantung.
(2) Saya pikir keputusan semacam ini datang ke memikirkan tentang bagaimana data dihasilkan, daripada melihat bagaimana mereka terlihat.
(4) itu tergantung. Misalnya, anak-anak yang bersarang di sekolah tidak boleh, dalam banyak kasus, diperlakukan sebagai orang yang mandiri. Karena pola sosial, dll, jika saya tahu sesuatu tentang seorang anak di sekolah tertentu, maka saya mungkin tahu setidaknya sedikit tentang anak-anak lain di sekolah. Saya pernah menggunakan GEE untuk melihat hubungan antara berbagai indikator sosial dan ekonomi dan prevalensi obesitas dalam kelompok kelahiran di mana para peserta bersarang di lingkungan. Saya menggunakan struktur yang bisa ditukar. Anda dapat menemukan makalah di sini dan memeriksa beberapa referensi, termasuk 2 dari jurnal epi.
(5) Rupanya begitu (mis. Lihat contoh ini ), tapi saya tidak bisa membantu dengan specfics R melakukan ini.
Zeger SL, Liang KY, Albert PS. Model untuk data longitudinal: pendekatan persamaan estimasi umum. Biometrik. 1988; 44: 1049–60.
Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE atau tidak ke GEE: membandingkan fungsi estimasi dan metode berbasis kemungkinan untuk memperkirakan asosiasi antara lingkungan dan kesehatan. Epidemiologi. 2009
Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Analisis statistik data berkorelasi menggunakan persamaan estimasi umum: suatu orientasi. Am J Epidemiol. 2003; 157: 364.
sumber
(0) Komentar umum: sebagian besar model yang saya lihat pada crossvalidated terlalu rumit. Sederhanakan jika memungkinkan. Sering pemodelan yang layak dengan GEE dan model campuran untuk membandingkan hasil.
(1) Ya. Pilih yang bisa ditukar. Jawaban saya yang tidak ambigu didasarkan pada manfaat GEE yang paling banyak dipuji: ketahanan perkiraan terhadap asumsi yang dibuat.
Jika Anda melihat studi di bidang Anda, Anda akan melihat bahwa exch adalah opsi default. Itu tidak berarti itu yang terbaik, tetapi harus menjadi yang pertama untuk dipertimbangkan. Penasihat exch akan menjadi saran terbaik tanpa memiliki pengetahuan rinci tentang data Anda.
(2) Ya, ada pendekatan berbasis data seperti "QIC". Ini adalah contoh Stata, tetapi diterima secara luas sebagai pilihan yang masuk akal, meskipun sangat jarang digunakan dalam praktik:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Estimasi titik tidak pernah sama persis (kecuali jika Anda menggunakan struktur korelasi indep), tetapi biasanya cukup dekat. Anda dapat menemukan banyak artikel yang membandingkan perkiraan model efek sederhana / gee / campuran untuk merasakan ini ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Sebagian besar buku teks juga memiliki meja atau dua untuk ini. Untuk struktur korelasi independen Anda pada dasarnya menjalankan model poisson dengan Ss kuat. Jadi perkiraannya akan sama persis. SE biasanya lebih besar. Tetapi kadang-kadang SE yang kuat lebih kecil (yaitu kehidupan: google dengan memberikan penjelasan tanpa rasa sakit jika tertarik)
(4) Lihat (1) dan (2) di atas.
(5) Tidak. Atau lebih baik dinyatakan, Anda dapat melakukan apa saja jika Anda melakukan cukup usaha tetapi sangat jarang sepadan dengan usaha.
sumber
Anda menggunakan pendekatan yang salah dengan gee untuk melakukan apa yang Anda lakukan karena Anda tidak tahu strukturnya dan hasil Anda kemungkinan besar akan dikacaukan. Lihat Jamie Robinson ini. Anda harus menggunakan yang lama. TMLE (mark van der laan) atau mungkin gee dengan bobot iptw. Tidak memperhitungkan korelasi tidak meremehkan varians. Bayangkan saja jika semua pengukuran berulang berkorelasi 100%, maka Anda akan secara efektif memiliki pengamatan yang jauh lebih sedikit (pada dasarnya hanya n untuk n subjek Anda) dan lebih kecil n berarti varians yang lebih tinggi.
sumber