Saya mencoba untuk tata letak sendiri pada saat yang tepat itu untuk penggunaan jenis regresi (geometris, Poisson, binomial negatif) dengan data hitung, dalam kerangka GLM (hanya 3 dari 8 distribusi GLM digunakan untuk data count, meskipun sebagian besar dari apa Saya telah membaca pusat di sekitar distribusi binomial dan Poisson negatif).
Kapan menggunakan Poisson vs. GLM binomial geometris vs. negatif untuk data jumlah?
Sejauh ini saya memiliki logika berikut: Apakah ini menghitung data? Jika Ya, Apakah mean dan varians tidak sama? Jika Ya, regresi binomial negatif. Jika tidak, regresi Poisson. Apakah tidak ada inflasi? Jika ya, nol meningkat Poisson atau nol meningkat binomial negatif.
Pertanyaan 1 Tampaknya tidak ada indikasi yang jelas untuk digunakan kapan. Apakah ada sesuatu untuk menginformasikan keputusan itu? Dari apa yang saya mengerti, setelah Anda beralih ke ZIP, varians rata-rata menjadi asumsi yang sama menjadi santai sehingga sangat mirip dengan NB lagi.
Pertanyaan 2 Di mana keluarga geometrik cocok dengan pertanyaan ini atau pertanyaan apa yang harus saya tanyakan dari data ketika memutuskan apakah akan menggunakan keluarga geometrik dalam regresi saya?
Pertanyaan 3 Aku melihat orang-orang mempertukarkan binomial negatif dan distribusi Poisson semua waktu tetapi tidak geometris, jadi saya menduga ada sesuatu yang jelas berbeda tentang kapan untuk menggunakannya. Jika demikian, apakah itu?
PS Saya sudah membuat (mungkin disederhanakan, dari komentar) diagram ( dapat diedit ) dari pemahaman saya saat ini jika orang ingin berkomentar / tweak untuk diskusi.
sumber
Jawaban:
Tentu saja, ada juga banyak distribusi data jumlah parameter tunggal atau multi-parameter lainnya (termasuk senyawa Poisson yang Anda sebutkan) yang kadang-kadang dapat atau mungkin tidak mengarah pada kesesuaian yang jauh lebih baik.
Adapun nol berlebih: Dua strategi standar adalah menggunakan distribusi data hitung nol-meningkat atau model rintangan yang terdiri dari model biner untuk nol atau lebih besar plus model data hitung terpotong-nol. Seperti yang Anda sebutkan, nol berlebih dan penyebaran berlebih mungkin dikacaukan tetapi sering terjadi overdispersi yang cukup besar bahkan setelah menyesuaikan model dengan kelebihan nol. Sekali lagi, jika ragu, saya akan merekomendasikan untuk menggunakan nol inflasi atau model rintangan berbasis NB dengan logika yang sama seperti di atas.
Penafian: Ini adalah ikhtisar yang sangat singkat dan sederhana. Saat menerapkan model dalam praktik, saya akan merekomendasikan untuk berkonsultasi dengan buku teks tentang topik tersebut. Secara pribadi, saya suka buku data hitung oleh Winkelmann dan oleh Cameron & Trivedi. Tapi ada yang bagus juga. Untuk diskusi berbasis R, Anda mungkin juga menyukai makalah kami di JSS ( http://www.jstatsoft.org/v27/i08/ ).
sumber