Asumsi regresi Poisson dan cara mengujinya dalam R

11

Saya ingin menguji regresi mana yang paling cocok dengan data saya. Variabel dependen saya adalah hitungan, dan memiliki banyak nol.

Dan saya perlu bantuan untuk menentukan model dan keluarga apa yang akan digunakan (poisson atau quasipoisson, atau regresi poisson nol-inflasi), dan bagaimana menguji asumsi.

  1. Regresi Poisson: sejauh yang saya mengerti, asumsi kuat adalah bahwa variabel dependen mean = varians. Bagaimana Anda menguji ini? Seberapa dekat mereka seharusnya? Apakah mean dan varian tidak bersyarat atau bersyarat digunakan untuk ini? Apa yang harus saya lakukan jika asumsi ini tidak berlaku?
  2. Saya membaca bahwa jika varians lebih besar dari rata-rata, kami memiliki penyebaran berlebihan, dan cara potensial untuk mengatasinya termasuk variabel yang lebih independen, atau family = quasipoisson. Apakah distribusi ini memiliki persyaratan atau asumsi lain? Tes apa yang saya gunakan untuk melihat apakah (1) atau (2) lebih cocok - cukup anova(m1,m2)?
  3. Saya juga membaca bahwa distribusi binomial negatif dapat digunakan ketika overdispersi muncul. Bagaimana saya melakukan ini di R? Apa bedanya dengan quasipoisson?
  4. Zero-inflated Poisson Regression: Saya membaca bahwa menggunakan tes vuong memeriksa model mana yang lebih baik.

    > vuong (model.poisson, model.zero.poisson)

    Apakah itu benar? Asumsi apa yang dimiliki regresi nol-inflasi?

  5. Layanan Teknologi Akademik UCLA, Statistik Consulting Group memiliki bagian tentang Regresi Poisson nol-meningkat, dan menguji model zeroinflated (a) terhadap model poisson standar (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

Saya tidak mengerti apa yang dilakukan oleh | personsbagian dari model pertama, dan mengapa Anda dapat membandingkan model-model ini. Saya mengharapkan regresi sama dan hanya menggunakan keluarga yang berbeda.

Torvon
sumber

Jawaban:

8

1) Hitung mean dan varians sampel. harus didistribusikan , di mana adalah ukuran sampel dan prosesnya benar-benar Poisson - karena merupakan perkiraan independen dari varian yang sama.X¯S2F(1,n1)n

Perhatikan bahwa tes ini mengabaikan kovariat - jadi mungkin bukan cara terbaik untuk memeriksa dispersi berlebih dalam situasi itu.

Perhatikan juga bahwa tes ini mungkin lemah terhadap hipotesis nol-inflasi.

3) binomial negatif dalam R: gunakan glm.nbdari MASSpaket, atau gunakan zeroinflfungsi dari psclpaket menggunakan tautan binomial negatif.

4) zip (zero-inflated Poisson) adalah model campuran. Anda memiliki hasil biner, yang menurutnya subjek milik grup A (di mana 0 pasti) atau grup B (di mana jumlah Poisson atau neg binomial didistribusikan). Yang diamati 0 adalah karena subyek dari kelompok A + subyek dari kelompok B yang kebetulan beruntung. Kedua aspek model dapat bergantung pada kovariat: keanggotaan grup dimodelkan seperti logistik (peluang log linear pada kovariat) dan bagian Poisson dimodelkan dengan cara yang biasa: log mean linear dalam kovariat. Jadi, Anda memerlukan asumsi biasa untuk logistik (untuk 0 bagian tertentu) dan asumsi biasa untuk Poisson. Dengan kata lain, model zip tidak akan menyembuhkan masalah overdispersi Anda - itu hanya menyembuhkan kegilaan besar dari nol.

5) tidak yakin apa set data dan tidak dapat menemukan referensi. zeroinfl membutuhkan model untuk bagian poisson dan biner (bagian 0 atau tidak). Bagian 0 tertentu menempati posisi kedua. Jadi ma mengatakan bahwa apakah orang itu 0 atau tidak tergantung pada "orang" - dan dengan asumsi subjek bukan 0 tertentu, hitungan adalah fungsi kemping dan anak. Dengan kata lain log (rata-rata) adalah fungsi linear dari kemping dan anak untuk subjek yang tidak memerlukan 0 hitungan.

mb hanyalah model linear umum hitungan dalam hal kemping dan anak - keduanya diasumsikan efek tetap. Fungsi tautannya adalah Poisson.

Placidia
sumber
Terima kasih! Sebuah pertanyaan singkat: apakah ada cara untuk menghasilkan r ^ 2 atau pseudo-r ^ 2 seperti Nagelkerke di glm menggunakan family = poisson di R? Terima kasih!
Torvon
0
  1. perpustakaan (pastec)

stat.desc (dep_var) - dan lihat apakah mean dan variansnya sama. Dari sini Anda juga dapat menghitung% dari nol di vektor Anda.

fingerman
sumber
3
Selamat datang di situs ini. Ini lebih seperti komentar daripada jawaban; juga, lebih baik menggunakan ejaan yang tepat dan sebagainya - ini bukan SMS dan banyak orang yang membaca situs ini menggunakan bahasa Inggris sebagai bahasa ke-2 atau ke-3 atau ....
Peter Flom - Reinstate Monica
3
Tolong, bekerja untuk meningkatkan balasan cepat ini.
chl