Regresi Poisson untuk memperkirakan risiko relatif untuk hasil biner

42

Ringkasan singkat

Mengapa regresi logistik (dengan rasio odds) lebih umum digunakan dalam studi kohort dengan hasil biner, dibandingkan dengan regresi Poisson (dengan risiko relatif)?

Latar Belakang

Statistik sarjana dan pascasarjana dan kursus epidemiologi, dalam pengalaman saya, umumnya mengajarkan bahwa regresi logistik harus digunakan untuk memodelkan data dengan hasil biner, dengan perkiraan risiko yang dilaporkan sebagai rasio odds.

Namun, regresi Poisson (dan yang terkait: quasi-Poisson, binomial negatif, dll.) Juga dapat digunakan untuk memodelkan data dengan hasil biner dan, dengan metode yang tepat (misalnya estimator varians sandwich yang kuat), ia menyediakan estimasi risiko yang valid dan tingkat kepercayaan. Misalnya,

Dari regresi Poisson, risiko relatif dapat dilaporkan, yang beberapa orang berpendapat lebih mudah diinterpretasikan dibandingkan dengan odds rasio, terutama untuk hasil yang sering, dan terutama oleh individu tanpa latar belakang yang kuat dalam statistik. Lihat Zhang J. dan Yu KF, Apa risiko relatifnya? Metode untuk mengoreksi rasio odds dalam studi kohort dari hasil yang umum , JAMA. 1998 18 November; 280 (19): 1690-1.

Dari membaca literatur medis, di antara studi kohort dengan hasil biner tampaknya masih jauh lebih umum untuk melaporkan odds rasio dari regresi logistik daripada risiko relatif dari regresi Poisson.

Pertanyaan

Untuk studi kohort dengan hasil biner:

  1. Apakah ada alasan yang baik untuk melaporkan rasio odds dari regresi logistik daripada risiko relatif dari regresi Poisson?
  2. Jika tidak, dapatkah kemunduran regresi Poisson dengan risiko relatif dalam literatur medis sebagian besar disebabkan oleh kelambatan antara teori metodologis dan praktik di antara para ilmuwan, dokter, ahli statistik, dan ahli epidemiologi?
  3. Haruskah statistik menengah dan kursus epidemiologi memasukkan lebih banyak diskusi tentang regresi Poisson untuk hasil biner?
  4. Haruskah saya mendorong siswa dan kolega untuk mempertimbangkan regresi Poisson daripada regresi logistik bila perlu?
jthetzel
sumber
Jika Anda menginginkan risiko relatif, mengapa Anda tidak hanya menggunakan regresi binomial dengan tautan log (bukan logistik)? Hubungan mean-variance dari keluarga Poisson adalah tidak masuk akal jika Anda telah mengkondisikan pada jumlah peristiwa yang mungkin per pengamatan.
Andrew M
@AndrewM Bagaimana Anda menerapkan regresi Binomial dengan tautan log? Nilai positif dari regressor akan menyiratkan nilai probabilitas lebih besar dari 1.
Rufo
[0,1]
@AndrewM Ya, saya ment prediksi linear, terima kasih :). Tetapi bahkan ketika Anda berhasil menerapkan model, saya tidak yakin itu memadai. Seperti yang saya tunjukkan dalam komentar di jawaban pertama, jika Anda menukar 0s untuk 1s dan sebaliknya untuk variabel respons, karena tautan log tidak simetris di sekitar 0,5, perkiraan risiko relatif berbeda ( exp(beta_M1) =/= 1/exp(beta_M2)). Itu sedikit mengganggu saya.
Rufo
1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Jawaban:

28

Jawaban untuk keempat pertanyaan Anda, didahului dengan catatan:

Sebenarnya tidak semua yang umum untuk studi epidemiologi modern untuk melaporkan rasio odds dari regresi logistik untuk studi kohort. Ini masih teknik regresi pilihan untuk studi kasus-kontrol, tetapi teknik yang lebih canggih sekarang standar de facto untuk analisis dalam jurnal epidemiologi besar seperti Epidemiologi , AJE atau IJE. Akan ada kecenderungan yang lebih besar bagi mereka untuk muncul di jurnal klinis yang melaporkan hasil studi observasional. Ada juga akan ada beberapa masalah karena regresi Poisson dapat digunakan dalam dua konteks: Apa yang Anda maksudkan, di mana itu adalah pengganti untuk model regresi binomial, dan dalam konteks waktu-ke-peristiwa, yang sangat umum untuk kohort studi. Lebih detail dalam jawaban pertanyaan tertentu:

  1. Untuk studi kohort, tidak benar-benar tidak. Ada beberapa kasus yang sangat spesifik di mana katakanlah, model logistik piecewise mungkin telah digunakan, tetapi ini adalah outlier. Seluruh titik dari penelitian kohort adalah bahwa Anda dapat langsung mengukur risiko relatif, atau banyak langkah-langkah terkait, dan tidak harus bergantung pada rasio odds. Namun saya akan membuat dua catatan: Regresi Poisson sering memperkirakan tingkat, bukan risiko, dan karenanya perkiraan efek darinya akan sering dicatat sebagai rasio suku bunga (terutama, dalam pikiran saya, sehingga Anda masih dapat menyingkatnya RR) atau rasio kepadatan insiden (IRR atau IDR). Jadi pastikan dalam pencarian Anda Anda benar-benar mencari istilah yang tepat: ada banyak studi kohort menggunakan metode analisis survival. Untuk studi ini, regresi Poisson membuat beberapa asumsi yang bermasalah, terutama bahayanya konstan. Karena itu, jauh lebih umum untuk menganalisis studi kohort menggunakan model bahaya proporsional Cox, daripada model Poisson, dan melaporkan rasio hazard (HR) yang terjadi. Jika ditekan untuk menyebutkan metode "default" untuk menganalisis kohort, saya akan mengatakan epidemiologi sebenarnya didominasi oleh model Cox. Ini memiliki masalah sendiri, dan beberapa ahli epidemiologi yang sangat baik ingin mengubahnya,

  2. Ada dua hal yang mungkin saya kaitkan dengan infrequency - infrequency yang saya pikir belum tentu ada sejauh yang Anda sarankan. Salah satunya adalah ya - "epidemiologi" sebagai bidang yang tidak sepenuhnya tertutup, dan Anda mendapatkan sejumlah besar makalah dari dokter, ilmuwan sosial, dll. Serta ahli epidemiologi dari berbagai latar belakang statistik. Model logistik umumnya diajarkan, dan menurut pengalaman saya, banyak peneliti akan beralih ke alat yang sudah dikenal daripada alat yang lebih baik.

    Yang kedua sebenarnya adalah pertanyaan tentang apa yang Anda maksud dengan studi "cohort". Sesuatu seperti model Cox, atau model Poisson, membutuhkan perkiraan waktu orang yang sebenarnya. Mungkin untuk mendapatkan studi kohort yang mengikuti populasi yang agak tertutup untuk periode tertentu - terutama dalam contoh awal "Intro to Epi", di mana metode bertahan hidup seperti model Poisson atau Cox tidak begitu berguna. Model logistik dapatdigunakan untuk memperkirakan rasio odds yang, dengan prevalensi penyakit yang cukup rendah, mendekati risiko relatif. Teknik regresi lain yang secara langsung memperkirakannya, seperti regresi binomial, memiliki masalah konvergensi yang dapat dengan mudah menggagalkan siswa baru. Ingatlah bahwa makalah Zou yang Anda kutip keduanya menggunakan teknik regresi Poisson untuk mengatasi masalah konvergensi regresi binomial. Tetapi studi kohort yang sesuai binomial sebenarnya adalah sepotong kecil dari "pie studi kohort".

  3. Iya nih. Terus terang, metode analisis survival harus muncul lebih awal daripada yang sering mereka lakukan. Teori peliharaan saya adalah bahwa alasannya tidak demikian adalah bahwa metode seperti regresi logistik lebih mudah untuk dikodekan . Teknik yang lebih mudah untuk dikodekan, tetapi disertai dengan peringatan yang jauh lebih besar tentang validitas perkiraan efeknya, diajarkan sebagai standar "dasar", yang merupakan masalah.

  4. Anda harus mendorong siswa dan kolega untuk menggunakan alat yang sesuai. Secara umum untuk lapangan, saya pikir Anda mungkin akan lebih baik menyarankan pertimbangan model Cox atas regresi Poisson, karena kebanyakan pengulas akan (dan harus) dengan cepat memunculkan kekhawatiran tentang asumsi bahaya konstan. Tapi ya, semakin cepat Anda bisa menjauhkan mereka dari "Bagaimana cara memilih pertanyaan saya menjadi model regresi logistik?" semakin baik kita semua. Tapi ya, jika Anda melihat studi tanpa waktu, siswa harus diperkenalkan dengan regresi binomial, dan pendekatan alternatif, seperti regresi Poisson, yang dapat digunakan jika terjadi masalah konvergensi.

Fomite
sumber
Ketika Anda mengatakan teknik regresi lain yang secara langsung memperkirakannya [risiko relatif, saya kira], seperti regresi binomial, memiliki masalah konvergensi [...] , bagaimana Anda menerapkan regresi binomial sehingga memberikan Anda risiko relatif? @AndrewM menyarankan tautan log, tapi saya gagal melihat bagaimana Anda menghindari masalah memiliki estimasi probabilitas keberhasilan yang lebih tinggi dari 1.
Rufo
@Rufo Model binomial dengan log-link, ketika dijalankan pada kohort, akan memperkirakan risiko relatif. Bahwa model-model ini kadang-kadang memperkirakan probabilitas yang lebih besar dari 1 memang salah satu alasan mengapa model binomial lebih sulit untuk diimplementasikan daripada yang ideal. Tetapi saya telah berhasil menggunakannya - sangat membantu bahwa data Anda sering memiliki probabilitas di bawah 1, sehingga model tersebut mungkin tidak akan pernah berakhir dengan masalah yang Anda khawatirkan.
Fomite
p
9

Saya juga berspekulasi pada prevalensi model logistik dalam literatur ketika model risiko relatif akan lebih tepat. Kita sebagai ahli statistik terlalu akrab dengan kepatuhan pada konvensi atau berpegang pada analisis "drop-down-menu". Ini menciptakan lebih banyak masalah daripada yang mereka pecahkan. Regresi logistik diajarkan sebagai "alat standar" untuk menganalisis hasil biner, di mana seorang individu memiliki tipe hasil ya / tidak seperti kematian atau cacat.

Regresi Poisson sering diajarkan sebagai metode untuk menganalisis jumlah . Agak ditekankan bahwa model probabilitas seperti itu bekerja sangat baik untuk memodelkan hasil 0/1, terutama ketika mereka jarang. Namun, model logistik juga diterapkan dengan baik dengan hasil yang jarang: rasio odds kira-kira rasio risiko, bahkan dengan pengambilan sampel tergantung hasil seperti dengan studi kasus kontrol. Hal yang sama tidak dapat dikatakan tentang risiko relatif atau model Poisson.

Model poisson juga berguna ketika individu mungkin memiliki "hasil" lebih dari sekali, dan Anda mungkin tertarik pada kejadian kumulatif, seperti wabah herpes, rawat inap, atau kanker payudara. Untuk alasan ini, koefisien eksponensial dapat diartikan sebagai tingkat relatif . Untuk mengulangi perbedaan antara tingkat dan risiko: Jika ada 100 kasus per 1.000 orang-tahun, tetapi semua 100 kasus terjadi dalam satu individu, insiden (tingkat) masih 1 kasus per 10 orang-tahun. Dalam pengaturan pemberian layanan kesehatan, Anda masih perlu merawat 100 kasus, dan memvaksinasi 80% orang memiliki pengurangan angka kejadian 80% (apriori). Namun risiko setidaknya satu hasil adalah 1/1000. Sifat dari hasil dan pertanyaan, bersama-sama, menentukan model mana yang sesuai.

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1-E[Y])

Ngomong-ngomong, artikel Zhang memberikan estimasi bias inferensi berdasarkan estimasi risiko relatif yang tidak memperhitungkan variabilitas dalam jangka waktu intersepsi. Anda dapat memperbaiki estimator dengan bootstrap.

Untuk menjawab pertanyaan spesifik:

  1. Jika hasilnya jarang mereka kira-kira sama. Jika hasilnya umum, varians dari penaksir tingkat relatif dari Poisson mungkin lebih meningkat, dan kami mungkin lebih suka rasio odds sebagai estimasi bias tapi efisien hubungan antara hasil biner dan beberapa paparan. Saya juga berpikir bahwa studi kasus kontrol membenarkan penggunaan rasio odds sebagai ukuran yang tidak berbeda dengan pengambilan sampel tergantung hasil. Scott dan Wild 97 membahas metode seputar ini. Tentu saja, jurnal lain mungkin tidak memiliki peninjau statistik berdedikasi.

2.3. Saya pikir Anda menyalahkan dan berasumsi terlalu banyak tentang apa yang terjadi dalam ulasan medis dan akademisi.

  1. Anda harus selalu mendorong siswa Anda untuk menggunakan model yang sesuai kapan pun memungkinkan.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

AdamO
sumber
2
"Pemahaman saya adalah bahwa jika minat ilmiah terletak pada estimasi tingkat relatif, ada model hybrid: regresi risiko relatif yang merupakan GLM menggunakan struktur varians logistik dan struktur mean poisson": Juga dikenal sebagai regresi binomial dengan link log.
Andrew M
2
@AndrewM Memang. Bahkan, saya pikir itu adalah bahasa yang disukai. Terima kasih telah menunjukkannya. Saya telah mengedit pertanyaan untuk memasukkan referensi ke kertas kerja dari Thomas Lumley yang menekankan bahwa model Poisson adalah "model kerja" di mana itu adalah hubungan mean-variance diasumsikan salah.
AdamO
Apa yang Anda maksud dengan "Jika hasilnya jarang mereka kira-kira sama"? Berapa persentase maksimum hasil "langka" untuk menggunakan ATAU alih-alih RR untuk memperkirakan prevalensi?
vasili111
2
@ vasili111 ini adalah topik hangat yang diperdebatkan tanpa jawaban yang jelas. Saat ini Anda melihat banyak kritik terhadap orang yang membuat asumsi "langka" ketika kejadiannya tidak terlalu jarang sama sekali, seperti lebih dari 1/30. Dan dengan model multivarian, apa pun bisa terjadi!
AdamO