Dalam memodelkan data jumlah klaim di lingkungan asuransi, saya mulai dengan Poisson tetapi kemudian melihat penyebaran berlebihan. Quasi-Poisson lebih baik memodelkan hubungan mean-variance yang lebih besar daripada Poisson dasar, tetapi saya perhatikan bahwa koefisien identik dalam model Poisson dan Quasi-Poisson.
Jika ini bukan kesalahan, mengapa ini terjadi? Apa manfaat menggunakan Quasi-Poisson daripada Poisson?
Hal yang perlu diperhatikan:
- Kerugian yang mendasarinya adalah pada basis berlebih, yang (saya percaya) mencegah Tweedie dari bekerja - tapi itu distribusi pertama yang saya coba. Saya juga memeriksa model NB, ZIP, ZINB, dan Hurdle, tetapi masih menemukan Quasi-Poisson yang paling cocok.
- Saya menguji penyebaran berlebih melalui dispersiontest dalam paket AER. Parameter dispersi saya sekitar 8,4, dengan nilai-p pada besarnya 10 ^ -16.
- Saya menggunakan glm () dengan family = poisson atau quasipoisson dan tautan log untuk kode.
- Saat menjalankan kode Poisson, saya keluar dengan peringatan "In dpois (y, mu, log = TRUE): non-integer x = ...".
Panduan SE Utas per Ben:
counts/exposure
. Sebaliknya, Anda harus menambahkan istilah offset (offset(log(exposure))
) ke model Anda.Jawaban:
Ini hampir duplikat ; pertanyaan terkait menjelaskan bahwa Anda seharusnya tidak mengharapkan perkiraan koefisien, penyimpangan residual, atau derajat kebebasan untuk berubah. Satu-satunya hal yang berubah ketika pindah dari Poisson ke quasi-Poisson adalah bahwa parameter skala yang sebelumnya ditetapkan menjadi 1 dihitung dari beberapa perkiraan variabilitas residual / bad-of-fit (biasanya diperkirakan melalui jumlah kuadrat dari residu Pearson ( ) dibagi dengan residual df, meskipun asimtotik menggunakan residual deviance memberikan hasil yang sama). Hasilnya adalah bahwa kesalahan standar diskalakan oleh akar kuadrat dari parameter skala ini, dengan perubahan bersamaan dalam interval kepercayaan dan nilai- . pχ2 p
Keuntungan dari quasi-likelihood adalah memperbaiki kesalahan dasar dengan mengasumsikan bahwa data tersebut adalah Poisson (= homogen, jumlah independen); Namun, memperbaiki masalah dengan cara ini berpotensi menutupi masalah lain dengan data. (Lihat di bawah.) Kuasi-kemungkinan adalah salah satu cara untuk menangani penyebaran berlebihan; jika Anda tidak mengatasi penyebaran berlebih dalam beberapa cara, koefisien Anda akan masuk akal tetapi inferensi Anda (CI, nilai, dll.) akan menjadi sampah.p
sumber