Poisson atau quasi poisson dalam regresi dengan jumlah data dan penyebaran berlebihan?

Saya memiliki data jumlah (analisis permintaan / penawaran dengan menghitung jumlah pelanggan, tergantung pada - kemungkinan - banyak faktor). Saya mencoba regresi linier dengan kesalahan normal, tetapi plot QQ saya tidak terlalu bagus. Saya mencoba transformasi log dari jawabannya: sekali lagi, plot QQ buruk.

Jadi sekarang, saya mencoba regresi dengan Kesalahan Poisson. Dengan model dengan semua variabel signifikan, saya mendapatkan:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Penyimpangan residual lebih besar daripada tingkat kebebasan residual: Saya memiliki penyebaran berlebihan.

Bagaimana saya bisa tahu jika saya perlu menggunakan quasipoisson? Apa tujuan quasipoisson dalam kasus ini? Saya membaca saran ini di "The R Book" oleh Crawley, tapi saya tidak melihat maksudnya atau peningkatan besar dalam kasus saya.

count-data poisson-regression overdispersion quasi-likelihood Antonin
sumber

Jawaban:

Saat mencoba menentukan persamaan GLM seperti apa yang ingin Anda perkirakan, Anda harus memikirkan hubungan yang masuk akal antara nilai yang diharapkan dari variabel target Anda dengan variabel sisi kanan (rhs) dan varians dari variabel target dengan variabel rhs. Plot dari residual vs nilai yang dipasang dari dari model Normal Anda dapat membantu dengan ini. Dengan regresi Poisson, hubungan yang diasumsikan adalah bahwa varians sama dengan nilai yang diharapkan; agak membatasi, saya pikir Anda akan setuju. Dengan regresi linier "standar", asumsinya adalah bahwa variansnya konstan terlepas dari nilai yang diharapkan. Untuk regresi quasi-poisson, varians diasumsikan sebagai fungsi linear dari rata-rata; untuk regresi binomial negatif, fungsi kuadratik.

Namun, Anda tidak terbatas pada hubungan ini. Spesifikasi "keluarga" (selain "kuasi") menentukan hubungan mean-variance. Saya tidak memiliki The R Book, tapi saya membayangkan itu memiliki tabel yang menunjukkan fungsi keluarga dan hubungan mean-variance yang sesuai. Untuk keluarga "kuasi" Anda dapat menentukan salah satu dari beberapa hubungan mean-variance, dan Anda bahkan dapat menulis sendiri; lihat dokumentasi R . Mungkin Anda bisa menemukan kecocokan yang lebih baik dengan menentukan nilai non-default untuk fungsi mean-variance dalam model "kuasi".

Anda juga harus memperhatikan rentang variabel target; dalam kasus Anda itu adalah data jumlah non-negatif. Jika Anda memiliki sebagian besar nilai rendah - 0, 1, 2 - distribusi kontinu mungkin tidak cocok, tetapi jika Anda tidak, tidak ada banyak nilai dalam menggunakan distribusi diskrit. Anda jarang mempertimbangkan distribusi Poisson dan Normal sebagai pesaing.

Jbowman
sumber

Ya kau benar. Di sini saya memiliki data penghitungan tetapi dengan nilai besar. Saya harus menggunakan distribusi terus menerus.

Antonin

Anda benar, data ini mungkin terlalu banyak disebarluaskan. Quasipoisson adalah obat: Ini memperkirakan parameter skala juga (yang diperbaiki untuk model poisson karena varians juga berarti) dan akan memberikan kecocokan yang lebih baik. Namun, itu tidak lagi kemungkinan maksimum apa yang Anda lakukan, dan tes model tertentu dan indeks tidak dapat digunakan. Diskusi yang baik dapat ditemukan di Venables dan Ripley, Statistik Terapan Modern dengan S (Bagian 7.5) .

Alternatifnya adalah dengan menggunakan model binomial negatif, misalnya glm.nb()fungsi dalam paket MASS.

Momo
sumber

Tetapi apakah saya "terpaksa" menggunakan quasipoisson dalam kasus ini? Saya bertanya karena model non-quasipoisson saya lebih baik (hanya poisson dasar) dalam arti bahwa lebih banyak variabel yang signifikan.

Antonin

Bukankah itu masuk akal? Jika saya menggunakan model regresi di mana saya berasumsi bahwa sigma adalah 0,00001 daripada menggunakan perkiraan dari data (2,3 katakanlah) maka tentu saja hal-hal akan menjadi lebih signifikan.

Dason

Antonin: Saya katakan itu hanya karena lebih banyak variabel yang signifikan, itu tidak membuat segalanya "lebih baik". Ini mungkin, seperti yang ditunjukkan Dason, dengan mudah menjadi positif palsu jika Anda meremehkan varians kesalahan. Saya pasti akan menggunakan metode kuasi atau binomial negatif dalam kasus ini, tetapi kecuali saya meninjau makalah Anda, Anda tidak akan dipaksa untuk melakukan apa pun;)

Momo

Terimakasih banyak untuk jawabanmu! Apakah Anda tahu cara membandingkan model quasi-poisson dan binomial negatif? Dalam kebanyakan buku, mereka menyajikan model tetapi tidak menjelaskan bagaimana memilih di antara mereka.

Antonin

Dari output, sepertinya Anda pas 53-17 = 16 parameter untuk 53 + 1 = 54 titik data; Apakah ini benar? Jika demikian, metode apa pun yang bergantung pada perkiraan asimptotik, termasuk penggunaan glm()dan glm.nb()bertanggung jawab untuk memberikan kesimpulan yang dikalibrasi dengan buruk; masuk akal untuk mengharapkan ketelitian akan dilebih-lebihkan. Akan sangat membantu untuk mengetahui lebih banyak tentang mengapa Anda ingin melakukan regresi ini; mungkin metode yang berperforma lebih baik dalam situasi sampel kecil dapat digunakan sebagai gantinya.

tamu