Bagaimana menangani overdispersi dalam regresi Poisson: kuasi-kemungkinan, GLM binomial negatif, atau efek acak tingkat subjek?

Regresi Poisson hanyalah GLM:

Orang sering berbicara tentang alasan parametrik untuk menerapkan regresi Poisson. Faktanya, regresi Poisson hanyalah GLM. Itu berarti regresi Poisson dibenarkan untuk semua jenis data (jumlah, peringkat, skor ujian, peristiwa biner, dll.) Ketika dua asumsi terpenuhi: 1) log mean-outcome adalah kombinasi linear dari prediktor dan 2) yang varians dari hasil sama dengan rata-rata . Kedua kondisi ini masing-masing disebut sebagai mean-model dan hubungan mean-variance.

Asumsi model-rata dapat sedikit dilonggarkan dengan menggunakan satu set penyesuaian kompleks untuk para prediktor. Ini bagus karena fungsi tautan memengaruhi interpretasi parameter; seluk beluk interpretasi membuat perbedaan antara menjawab pertanyaan ilmiah dan sepenuhnya menghindari konsumen dari analisis statistik Anda. Dalam posting SE lain saya membahas kegunaan log-transform untuk interpretasi.

Namun ternyata, asumsi kedua (hubungan mean-variance) memiliki implikasi kuat pada inferensi. Ketika hubungan mean-variance tidak benar, estimasi parameter tidak bias . Namun, kesalahan standar, interval kepercayaan, nilai p, dan prediksi semuanya salah perhitungan. Itu berarti Anda tidak dapat mengontrol kesalahan Tipe I dan Anda mungkin memiliki kekuatan suboptimal.

Bagaimana jika varian-mean dapat dilonggarkan sehingga varians itu hanya sebanding dengan mean? Regresi binomial negatif dan regresi Quasipoisson melakukan ini.

Model kuasipoisson

Model quasipoisson tidak berbasis kemungkinan. Mereka memaksimalkan "quasilikelihood" yang merupakan kemungkinan Poisson hingga konstanta proporsional. Konstanta proporsional itu adalah dispersi. Dispersi dianggap sebagai gangguanparameter. Sementara rutinisasi maksimalisasi menghasilkan estimasi parameter gangguan, estimasi itu hanyalah artifak data dan bukan nilai apa pun yang digeneralisasikan ke populasi. Dispersi hanya berfungsi untuk "mengecilkan" atau "memperluas" UK dari parameter regresi sesuai dengan apakah varians secara proporsional lebih kecil dari atau lebih besar dari rata-rata. Karena dispersi diperlakukan sebagai parameter gangguan, model quasipoisson menikmati sejumlah sifat yang kuat: data sebenarnya bisa heteroscedastic (tidak memenuhi asumsi mean-variance proporsional) dan bahkan menunjukkan sumber ketergantungan yang kecil, dan model rata-rata tidak perlu benar-benar tepat, tetapi 95% CI untuk parameter regresi asymptotically benar.Jika tujuan Anda dari analisis data adalah untuk mengukur hubungan antara serangkaian parameter regresi dan hasilnya, model quasipoisson biasanya merupakan cara yang harus dilakukan. Keterbatasan dari model ini adalah bahwa mereka tidak dapat menghasilkan interval prediksi, residu Pearson tidak dapat memberi tahu Anda banyak tentang seberapa akurat model rata-rata, dan kriteria informasi seperti AIC atau BIC tidak dapat secara efektif membandingkan model ini dengan jenis model lainnya.

Model binomial negatif

Ini paling berguna untuk memahami regresi binomial negatif sebagai regresi Poisson 2-parameter. Model rata-rata adalah sama seperti dalam model Poisson dan Quasipoisson di mana log dari hasil adalah kombinasi linear dari prediktor. Selain itu, parameter "skala" memodelkan hubungan mean-variance di mana varians hanya sebanding dengan rata-rata seperti sebelumnya. Namun, tidak seperti model quasipoisson, model jenis ini adalah prosedur berbasis kemungkinan yang tepat. Dalam hal ini dispersi adalah parameter aktual yang memiliki tingkat generalisasi terhadap populasi. Ini memperkenalkan beberapa keunggulan dibandingkan quasipoisson tetapi, menurut saya, memaksakan lebih banyak asumsi (yang tidak dapat diuji). Tidak seperti model quasipoisson: data harus independen, model rata-rata harus benar, dan parameter skala harus homoseksual di seluruh rentang nilai yang dipasang untuk mendapatkan inferensi yang benar. Namun, ini dapat dinilai agak dengan memeriksa residu Pearson, dan model menghasilkan prediksi yang layak dan interval prediksi, dan dapat dibandingkan dengan kriteria informasi.

Model probabilitas binomial negatif muncul dari campuran Poisson-Gamma. Artinya, ada variabel acak Gamma berfluktuasi yang tidak diketahui "memasukkan ke dalam" parameter tingkat Poisson. Karena pemasangan NB GLM didasarkan pada kemungkinan, biasanya membantu untuk menyatakan keyakinan sebelumnya tentang mekanisme penghasil data dan menghubungkannya dengan alasan probabilistik untuk model yang ada. Misalnya, jika saya menguji jumlah pembalap yang pensiun dari balap ketahanan 24 jam, saya mungkin mempertimbangkan bahwa kondisi lingkungan adalah semua pemicu stres yang tidak saya ukur dan dengan demikian berkontribusi pada risiko DNF, seperti kelembaban atau suhu dingin yang mempengaruhi ban traksi dan dengan demikian risiko spin-out dan kecelakaan.

Model untuk data dependen: GLMMs vs GEE

Generalized linear mixed models (GLMMs) untuk data Poisson tidak dapat dibandingkan dengan pendekatan di atas. GLMM menjawab pertanyaan yang berbeda dan digunakan dalam struktur data yang berbeda. Di sini sumber ketergantungan antara data diukur secara eksplisit. GLMMs menggunakan penyadapan acak dan lereng acak untuk menjelaskan heterogenitas tingkat individu. Ini mengubah apa yang kami perkirakan. Efek acak memodifikasi mean dan varians yang dimodelkan daripada hanya varians seperti yang dibahas di atas.

Ada dua kemungkinan tingkat asosiasi yang dapat diukur dalam data dependen: tingkat populasi (marginal) dan tingkat individu (bersyarat). GLMM mengklaim untuk mengukur asosiasi level individu (kondisional): yaitu, mengingat seluruh host kontributor level individu terhadap hasilnya, apa efek relatif dari kombinasi prediktor. Sebagai contoh, kursus persiapan ujian mungkin tidak banyak berpengaruh pada anak-anak yang bersekolah di sekolah-sekolah teladan, sedangkan anak-anak di kota besar mungkin mendapat manfaat yang sangat besar. Efek level individu kemudian secara substansial lebih tinggi dalam keadaan ini karena anak-anak yang diuntungkan terlalu jauh di atas kurva dalam hal paparan positif.

Jika kita secara naif menerapkan quasipoisson atau model binomial negatif pada data dependen, model NB akan salah, dan model Quasipoisson akan menjadi tidak efisien. GEE, bagaimanapun, memperluas model quasipoisson untuk secara eksplisit memodelkan struktur ketergantungan seperti GLMM, tetapi GEE mengukur tren marginal (tingkat populasi) dan mendapatkan bobot yang benar, kesalahan standar, dan kesimpulan.

Contoh analisis data:

Posting ini sudah terlalu lama :) Ada ilustrasi yang bagus dari dua model pertama dalam tutorial ini , bersama dengan referensi untuk lebih banyak membaca jika Anda tertarik. Data tersebut melibatkan kebiasaan bersarang kepiting tapal kuda: betina duduk di sarang dan jantan (satelit) menempel padanya. Para peneliti ingin mengukur jumlah laki-laki yang melekat pada perempuan sebagai fungsi dari karakteristik perempuan. Saya harap saya telah menggarisbawahi mengapa model campuran tidak dapat dibandingkan: jika Anda memiliki data dependen, Anda harus menggunakan model yang benar untuk pertanyaan yang berusaha dijawab oleh data dependen, baik GLM atau GEE.

Referensi:

[1] Agresti, Analisis Data Kategorikal Edisi ke-2

[2] Diggle, Heagerty, Liang, Zeger, Analisis Data Longitudinal 2nd ed.

AdamO
sumber