Dispersi berlebihan dan Dispersi Bawah dalam Regresi Binomial / Poisson Negatif

11

Saya melakukan regresi Poisson di SAS dan menemukan bahwa nilai chi-kuadrat Pearson dibagi dengan derajat kebebasan sekitar 5, menunjukkan penyebaran berlebihan. Jadi, saya cocok dengan model binomial negatif dengan proc genmod dan menemukan nilai chi-kuadrat Pearson dibagi dengan derajat kebebasan adalah 0,80. Apakah ini sekarang dianggap kurang tersebar? Jika demikian, bagaimana cara menangani ini? Saya telah membaca banyak tentang overdispersion dan percaya saya tahu bagaimana menangani hal ini tetapi informasi tentang bagaimana menangani atau menentukan apakah ada penyebaran yang kurang. Adakah yang bisa membantu?

Terima kasih.

StatsStudent
sumber

Jawaban:

17

Untuk distribusi Poisson dengan mean variansnya juga . Dalam kerangka model linier umum ini menyiratkan bahwa fungsi varians adalah untuk model Poisson. Asumsi model ini dapat salah karena berbagai alasan. Data hitung terlalu banyak dengan varians lebih besar dari apa yang dikte distribusi Poisson, misalnya, sering dijumpai. μ V ( μ ) = μμμ

V(μ)=μ

Penyimpangan dari asumsi varians dapat dalam konteks regresi mengambil beberapa bentuk. Yang paling sederhana adalah bahwa fungsi varians sama dengan dengan a dispersi parameter . Ini adalah model quasi-Poisson. Ini akan memberikan model regresi pas yang sama, tetapi inferensi statistik ( -values ​​dan interval kepercayaan) disesuaikan untuk penyebaran berlebihan atau kurang dengan menggunakan estimasi parameter dispersi.ψ > 0 p

V(μ)=ψμ
ψ>0p

Bentuk fungsional dari fungsi varians juga bisa salah. Bisa jadi polinomial derajat kedua katakanlah. Contohnya termasuk binomial, binomial negatif dan model gamma. Memilih salah satu dari model-model ini sebagai alternatif dari model Poisson akan mempengaruhi model regresi pas serta inferensi statistik berikutnya. Untuk distribusi binomial negatif dengan parameter bentuk fungsi varians adalah Kita dapat melihat dari ini bahwa jika kita mendapatkan fungsi varians untuk distribusi Poisson.λ > 0 V ( μ ) = μ ( 1 + μ

V(μ)=aμ2+bμ+c,
λ>0λ
V(μ)=μ(1+μλ).
λ

Untuk menentukan apakah fungsi varians untuk model Poisson sesuai untuk data, kita dapat memperkirakan parameter dispersi seperti yang disarankan OP dan memeriksa apakah kira-kira 1 (mungkin menggunakan tes formal). Tes semacam itu tidak menyarankan alternatif tertentu, tetapi paling jelas dipahami dalam model quasi-Poisson. Untuk menguji apakah bentuk fungsional dari fungsi varians sesuai, kita dapat menyusun uji rasio kemungkinan model Poisson ( ) terhadap model binomial negatif ( ). Perhatikan bahwa ia memiliki distribusi tidak standar di bawah hipotesis nol. Atau kita bisa menggunakan metode berbasis AIC secara umum untuk membandingkan model yang tidak bersarang. Tes berbasis regresi untuk penyebaran berlebih dalam model Poissonλ < λ=λ< mengeksplorasi kelas tes untuk fungsi varians umum.

Namun, saya akan merekomendasikan untuk pertama-tama mempelajari plot residu, misalnya plot Pearson atau residu penyimpangan (atau nilai kuadratnya) terhadap nilai yang dipasang. Jika bentuk fungsional varians salah, Anda akan melihat ini sebagai bentuk corong (atau tren untuk residu kuadrat) dalam plot residual. Jika bentuk fungsional sudah benar, yaitu, tidak ada corong atau tren, mungkin masih ada penyebaran berlebihan atau kurang, tetapi ini dapat diperhitungkan dengan memperkirakan parameter dispersi. Manfaat dari plot residual adalah bahwa ia menyarankan lebih jelas daripada tes apa yang salah dengan fungsi varians jika ada.

Dalam kasus konkret OP, tidak mungkin untuk mengatakan jika 0,8 mengindikasikan kurang penyebaran dari informasi yang diberikan. Alih-alih berfokus pada perkiraan 5 dan 0,8, saya menyarankan untuk pertama-tama menyelidiki kesesuaian fungsi varians dari model Poisson dan model binomial negatif. Setelah bentuk fungsional yang paling tepat dari fungsi varians ditentukan, parameter dispersi dapat dimasukkan, jika perlu, dalam model mana pun untuk menyesuaikan inferensi statistik untuk setiap penambahan atau underdispersi tambahan. Bagaimana melakukannya dengan mudah di SAS, katakanlah, sayangnya bukan sesuatu yang bisa saya bantu.

NRH
sumber
2
+1, ini adalah informasi umum yang baik. Mungkin akan lebih bermanfaat bagi OP jika Anda secara khusus menjawab pertanyaan eksplisit OP: (1) .8 kurang terdispersi; & (2) jika demikian, bagaimana cara berurusan dengan itu.
gung - Reinstate Monica
@ung, saya telah mengedit jawaban untuk memberikan saran yang lebih spesifik. Anda tidak dapat menentukan apakah 0,8 secara signifikan lebih kecil dari 1 dari informasi yang tersedia, dan IMHO berfokus pada apakah parameter dispersi 1 adalah pengalihan. Hasil edit saya menjelaskan apa yang saya pikirkan sebagai fokus OP.
NRH