Kapan menggunakan kesalahan standar yang kuat dalam regresi Poisson?

10

Saya menggunakan model regresi Poisson untuk menghitung data dan saya bertanya-tanya apakah ada alasan untuk tidak menggunakan kesalahan standar yang kuat untuk estimasi parameter? Saya khususnya prihatin karena beberapa perkiraan saya tanpa robust tidak signifikan (misalnya, p = 0,13) tetapi dengan robust signifikan (p <0,01).

Dalam SAS, ini tersedia dengan menggunakan pernyataan berulang di proc genmod(misalnya, repeated subject=patid;). Saya telah menggunakan http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm sebagai contoh yang mengutip makalah oleh Cameron dan Trivedi (2009) untuk mendukung penggunaan kesalahan standar yang kuat.

kara
sumber

Jawaban:

6

Secara umum jika Anda memiliki kecurigaan bahwa kesalahan Anda heteroskedastik, Anda harus menggunakan kesalahan standar yang kuat. Fakta bahwa estimasi Anda menjadi tidak signifikan ketika Anda tidak menggunakan SES yang kuat menunjukkan (tetapi tidak membuktikan) kebutuhan akan SES yang kuat! UK ini "kuat" terhadap bias yang dapat menyebabkan heteroskedastisitas dalam model linier umum.

Namun, situasi ini sedikit berbeda karena Anda meletakkannya di atas regresi Poisson.

Poisson memiliki properti terkenal yang memaksa dispersi menjadi sama dengan rata-rata, apakah data mendukung atau tidak. Sebelum mempertimbangkan kesalahan standar yang kuat, saya akan mencoba regresi Binomial Negatif, yang tidak mengalami masalah ini. Ada tes (lihat komentar) untuk membantu menentukan apakah perubahan yang dihasilkan dalam kesalahan standar signifikan.

Saya tidak tahu pasti apakah perubahan yang Anda lihat (pindah ke SES yang kuat mempersempit CI) menyiratkan kurang-dispersi, tetapi tampaknya mungkin. Lihatlah model yang sesuai (saya pikir binomial negatif, tetapi googling cepat juga menyarankan quasi-Poisson untuk dispersi yang kurang?) Dan lihat apa yang Anda dapatkan di pengaturan itu.

Ari B. Friedman
sumber
Jawaban bagus! Biasanya dalam heteroskedastisitas OLS tidak menyebabkan parameter menjadi tidak bias (hanya tidak efisien). Ini tidak benar meskipun untuk model linier umum, lihat posting ini oleh Dave Giles tentang hal itu untuk referensi. Saya tidak berpikir saya telah melihat tes Vuong merekomendasikan untuk ini meskipun (untuk perbandingan model nol meningkat non-bersarang saya telah melihatnya disarankan). Poisson bersarang di dalam Neg. Model binomial, sehingga seseorang dapat menggunakan uji rasio kemungkinan untuk parameter dispersi.
Andy W
Terima kasih atas jawaban Anda. Saya memang mencoba regresi Binomial Negatif tetapi mendapat peringatan: "Kriteria konvergensi Hessian relatif 0,0046138565 lebih besar dari batas 0,0001. Konvergensi dipertanyakan." Perhatikan bahwa variabel respons saya adalah hitung dengan nilai mulai dari 0 hingga 4. Apakah ada transformasi variabel dependen atau independen yang akan membantu konvergensi? Atau apa yang dilakukan seseorang dalam kasus ini?
kara
Juga, terkait dengan SE yang tidak kuat menjadi lebih kecil - dalam analisis saya, saya melihat bahwa itu adalah SE yang kuat yang lebih kecil dan ini adalah tempat pentingnya (bukan pada hasil yang tidak kuat). Inilah sebabnya saya ingin berhati-hati tentang melaporkan hasil yang kuat atau tidak - Saya tidak ingin memilih metode ini hanya karena nilai yang signifikan! Terima kasih lagi!
kara
@AndyW Saya memeriksa catatan saya dan Vuong memang untuk ZI vs Poisson. Pos yang diperbarui. kara saya melewatkan pembalikan. Anda dapat memiliki data yang kurang tersebar, dalam hal ini NBD juga berpotensi solusinya :-)
Ari B. Friedman
@kara Sulit mendiagnosis masalah non-konvergensi Anda dalam komentar. Saya akan mencoba pertanyaan baru hanya dengan informasi sebanyak yang Anda bisa berikan.
Ari B. Friedman
1

Saya akan membedakan analisis menggunakan model berbasis versus kesalahan standar yang kuat dengan merujuk yang terakhir sebagai "GEE" yang sebenarnya merupakan definisi yang dapat dipertukarkan. Selain penjelasan fantastis Scortchi:

GEE dapat "bias" dalam sampel kecil, yaitu 10-50 subjek: (Lipsitz, Laird, dan Harrington, 1990; Emrich dan Piedmonte, 1992; Sharples dan Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, dan Williams, 1994; Gunsolley, Getchell, dan Chinchilli, 1995; Sherman dan le Cessie, 1997.) Ketika saya mengatakan bahwa GEE bias apa yang saya maksudkan adalah bahwa perkiraan kesalahan standar dapat berupa konservatif atau antikonservatif karena jumlah sel yang kecil atau nol , tergantung pada nilai-nilai yang cocok menunjukkan perilaku ini dan seberapa konsisten mereka dengan tren keseluruhan dari model regresi.

Secara umum, ketika model parametrik ditentukan dengan benar, Anda masih mendapatkan perkiraan kesalahan standar yang benar dari CI berbasis model, tetapi seluruh titik penggunaan GEE adalah untuk mengakomodasi "jika" yang sangat besar. GEE memungkinkan ahli statistik untuk hanya menentukan model probabilitas kerja untuk data, dan parameter (alih-alih ditafsirkan dalam kerangka parametrik ketat) dianggap sebagai jenis "saringan" yang dapat menghasilkan nilai yang dapat direproduksi terlepas dari yang mendasari, pembuatan data yang tidak diketahui mekanisme. Ini adalah jantung dan jiwa dari analisis semi-parametrik, yang menjadi contoh GEE.

GEE juga menangani sumber kovarisasi yang tidak terukur dalam data, bahkan dengan spesifikasi matriks korelasi independen. Ini karena penggunaan matriks kovarians berbasis empiris daripada model. Dalam pemodelan Poisson, misalnya, Anda mungkin tertarik pada tingkat kesuburan salmon sampel dari berbagai aliran. Ova yang dipanen dari ikan betina mungkin memiliki distribusi Poisson yang mendasarinya, tetapi variasi genetik yang terdiri dari heretibilitas bersama dan sumber daya yang tersedia di aliran tertentu mungkin membuat ikan di dalam aliran tersebut lebih mirip daripada di antara aliran lainnya. GEE akan memberikan perkiraan kesalahan standar populasi yang benar selama laju pengambilan sampel konsisten dengan proporsi populasi mereka (atau dengan cara lain distratifikasi).

AdamO
sumber
1

Anda melakukan tes null equidispersion. Ini adalah regresi OLS tambahan sederhana. Ada deskripsi di halaman 670 tentang Cameron dan Trivedi. Dengan overdispersion besar, kesalahan standar sangat kempes, jadi saya akan sangat waspada terhadap hasil yang bergantung pada VCE yang tidak kuat ketika ada overdispersion. Dengan penyebaran rendah, yang terjadi adalah sebaliknya, yang terdengar seperti skenario yang Anda alami.

Dimitriy V. Masterov
sumber