Koefisien identik diestimasi dalam model Poisson vs Quasi-Poisson

Dalam memodelkan data jumlah klaim di lingkungan asuransi, saya mulai dengan Poisson tetapi kemudian melihat penyebaran berlebihan. Quasi-Poisson lebih baik memodelkan hubungan mean-variance yang lebih besar daripada Poisson dasar, tetapi saya perhatikan bahwa koefisien identik dalam model Poisson dan Quasi-Poisson.

Jika ini bukan kesalahan, mengapa ini terjadi? Apa manfaat menggunakan Quasi-Poisson daripada Poisson?

Hal yang perlu diperhatikan:

Kerugian yang mendasarinya adalah pada basis berlebih, yang (saya percaya) mencegah Tweedie dari bekerja - tapi itu distribusi pertama yang saya coba. Saya juga memeriksa model NB, ZIP, ZINB, dan Hurdle, tetapi masih menemukan Quasi-Poisson yang paling cocok.
Saya menguji penyebaran berlebih melalui dispersiontest dalam paket AER. Parameter dispersi saya sekitar 8,4, dengan nilai-p pada besarnya 10 ^ -16.
Saya menggunakan glm () dengan family = poisson atau quasipoisson dan tautan log untuk kode.
Saat menjalankan kode Poisson, saya keluar dengan peringatan "In dpois (y, mu, log = TRUE): non-integer x = ...".

Panduan SE Utas per Ben:

r count-data poisson-regression overdispersion quasi-likelihood Frank H.
sumber

Bukankah distribusi Tweedie menjadi ide yang lebih baik?

duffymo

Mencoba Tweedie dari awal tetapi data kerugian kami bukan dari bawah ke atas, melainkan berdasarkan kelebihan. Juga mencoba model Binomial Negatif, ZIP, dan rintangan untuk mengatasi penyebaran jumlah.

Frank H.

dapatkah Anda menjelaskan lebih banyak tentang dari mana nilai non-integer dalam data Anda berasal ??

Ben Bolker

Anda tidak boleh memodelkan frekuensi / tarif dengan menghitung rasio counts/exposure. Sebaliknya, Anda harus menambahkan istilah offset ( offset(log(exposure))) ke model Anda.

Ben Bolker

Ini praktis, meskipun paling penting ketika melakukan pemodelan Poisson (bukan quasi-Poisson). Saya tidak tahu referensi yang bagus; jika Anda tidak dapat menemukan jawaban yang relevan di sini di CrossValidated, itu akan membuat pertanyaan tindak lanjut yang bagus.

Ben Bolker

Jawaban:

Ini hampir duplikat ; pertanyaan terkait menjelaskan bahwa Anda seharusnya tidak mengharapkan perkiraan koefisien, penyimpangan residual, atau derajat kebebasan untuk berubah. Satu-satunya hal yang berubah ketika pindah dari Poisson ke quasi-Poisson adalah bahwa parameter skala yang sebelumnya ditetapkan menjadi 1 dihitung dari beberapa perkiraan variabilitas residual / bad-of-fit (biasanya diperkirakan melalui jumlah kuadrat dari residu Pearson ( ) dibagi dengan residual df, meskipun asimtotik menggunakan residual deviance memberikan hasil yang sama). Hasilnya adalah bahwa kesalahan standar diskalakan oleh akar kuadrat dari parameter skala ini, dengan perubahan bersamaan dalam interval kepercayaan dan nilai- . $\chi^2$ $p$

Keuntungan dari quasi-likelihood adalah memperbaiki kesalahan dasar dengan mengasumsikan bahwa data tersebut adalah Poisson (= homogen, jumlah independen); Namun, memperbaiki masalah dengan cara ini berpotensi menutupi masalah lain dengan data. (Lihat di bawah.) Kuasi-kemungkinan adalah salah satu cara untuk menangani penyebaran berlebihan; jika Anda tidak mengatasi penyebaran berlebih dalam beberapa cara, koefisien Anda akan masuk akal tetapi inferensi Anda (CI, nilai, dll.) akan menjadi sampah. $p$

Seperti yang Anda komentari di atas, ada banyak pendekatan berbeda untuk penyebaran berlebih (Tweedie, parameterisasi binomial negatif yang berbeda, kuasi-kemungkinan, nol-inflasi / perubahan).
Dengan faktor overdispersi> 5 (8.4), saya akan sedikit khawatir tentang apakah itu didorong oleh beberapa jenis model yang tidak sesuai (outlier, nol-inflasi [yang saya lihat Anda sudah mencoba], nonlinier) daripada mewakili heterogenitas lintas-papan. Pendekatan umum saya untuk ini adalah eksplorasi grafis dari data mentah dan diagnostik regresi ...

Ben Bolker
sumber

Sangat membantu. Saya melihat sekarang bahwa nilai-p untuk variabel dan tingkat variabel dalam Poisson jauh lebih signifikan secara statistik daripada Quasi-Poisson, karena penskalaan yang Anda sebutkan. Saya melakukan tes outlier tetapi tidak menemukan ini menjadi masalah. Apa yang mungkin menjadi beberapa masalah lain yang sedang ditutup-tutupi oleh penyebaran berlebihan, atau contoh-contoh pendekatan semacam itu untuk menemukan masalah ini?

Frank H.

Sebagian besar tanggapan non-linearitas pada skala tautan (log); periksa plot sisa-vs-pas dan plot variabel sisa-vs-prediktor untuk melihat apakah ada pola.

Ben Bolker

+1 Ditata dengan baik! Saya sangat menghargai kejelasan paragraf pertama Anda.

Alexis