Kapan menggunakan Poisson vs. GLM binomial geometris vs. negatif untuk data jumlah?

21

Saya mencoba untuk tata letak sendiri pada saat yang tepat itu untuk penggunaan jenis regresi (geometris, Poisson, binomial negatif) dengan data hitung, dalam kerangka GLM (hanya 3 dari 8 distribusi GLM digunakan untuk data count, meskipun sebagian besar dari apa Saya telah membaca pusat di sekitar distribusi binomial dan Poisson negatif).

Kapan menggunakan Poisson vs. GLM binomial geometris vs. negatif untuk data jumlah?


Sejauh ini saya memiliki logika berikut: Apakah ini menghitung data? Jika Ya, Apakah mean dan varians tidak sama? Jika Ya, regresi binomial negatif. Jika tidak, regresi Poisson. Apakah tidak ada inflasi? Jika ya, nol meningkat Poisson atau nol meningkat binomial negatif.

Pertanyaan 1 Tampaknya tidak ada indikasi yang jelas untuk digunakan kapan. Apakah ada sesuatu untuk menginformasikan keputusan itu? Dari apa yang saya mengerti, setelah Anda beralih ke ZIP, varians rata-rata menjadi asumsi yang sama menjadi santai sehingga sangat mirip dengan NB lagi.

Pertanyaan 2 Di mana keluarga geometrik cocok dengan pertanyaan ini atau pertanyaan apa yang harus saya tanyakan dari data ketika memutuskan apakah akan menggunakan keluarga geometrik dalam regresi saya?

Pertanyaan 3 Aku melihat orang-orang mempertukarkan binomial negatif dan distribusi Poisson semua waktu tetapi tidak geometris, jadi saya menduga ada sesuatu yang jelas berbeda tentang kapan untuk menggunakannya. Jika demikian, apakah itu?

PS Saya sudah membuat (mungkin disederhanakan, dari komentar) diagram ( dapat diedit ) dari pemahaman saya saat ini jika orang ingin berkomentar / tweak untuk diskusi. Hitungan Data: GLM Decision Tree

timothy.s.lau
sumber
Saya hanya akrab dengan pemrograman R, tetapi harap bantuan ini ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu
@RYOENG, saya melihat itu dan saya telah meletakkan perbedaan yang dijelaskan dalam pertanyaan saya dengan pohon logika. Saya terutama tertarik pada dist yang kurang dibahas, yaitu dist geometri.
timothy.s.lau
(PEMBARUAN) @Nick Cox menjawab di sini: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms tampaknya menyerah pada sentimen yang saya lihat sejauh ini mencari "Sulit untuk dijabarkan dengan cukup baik ketika untuk menggunakannya di luar jawaban kosong kapan pun ia bekerja paling baik "
timothy.s.lau
@Glen_b tangkapan yang baik, saya diperbarui logika.
timothy.s.lau
Anda mungkin aman menghapus paragraf tentang mendapatkan rusak oleh mod juga.
Glen_b -Reinstate Monica

Jawaban:

12

μ+1/θμ2μθα=1/θθ=θ=1

θ

Tentu saja, ada juga banyak distribusi data jumlah parameter tunggal atau multi-parameter lainnya (termasuk senyawa Poisson yang Anda sebutkan) yang kadang-kadang dapat atau mungkin tidak mengarah pada kesesuaian yang jauh lebih baik.

Adapun nol berlebih: Dua strategi standar adalah menggunakan distribusi data hitung nol-meningkat atau model rintangan yang terdiri dari model biner untuk nol atau lebih besar plus model data hitung terpotong-nol. Seperti yang Anda sebutkan, nol berlebih dan penyebaran berlebih mungkin dikacaukan tetapi sering terjadi overdispersi yang cukup besar bahkan setelah menyesuaikan model dengan kelebihan nol. Sekali lagi, jika ragu, saya akan merekomendasikan untuk menggunakan nol inflasi atau model rintangan berbasis NB dengan logika yang sama seperti di atas.

Penafian: Ini adalah ikhtisar yang sangat singkat dan sederhana. Saat menerapkan model dalam praktik, saya akan merekomendasikan untuk berkonsultasi dengan buku teks tentang topik tersebut. Secara pribadi, saya suka buku data hitung oleh Winkelmann dan oleh Cameron & Trivedi. Tapi ada yang bagus juga. Untuk diskusi berbasis R, Anda mungkin juga menyukai makalah kami di JSS ( http://www.jstatsoft.org/v27/i08/ ).

Achim Zeileis
sumber
4
μ+μ2>μ
3
μ
3
Seperti yang mungkin bisa Anda katakan dari komentar saya sebelumnya: Saya bukan penggemar diagram alur yang terlalu menyederhanakan. Untuk memilih model yang baik, orang perlu memahami hubungan antara model dan hubungannya dengan aplikasi praktis. Apakah Anda mungkin tertarik pada geometrik tergantung pada kasus aplikasi yang Anda miliki. Demikian pula, untuk nol inflasi vs rintangan (yang telah Anda hilangkan dari grafik Anda). Akhirnya, urutan pertanyaan belum tentu sama untuk semua aplikasi dll.
Achim Zeileis
2
Saya mengerti bahwa sketsa saya agak terlalu sederhana. Tetapi bagi siswa dalam sains, bukan tidak biasa untuk memulai dengan skema yang agak sederhana, jika Anda mengikuti kelas fisika, Anda sudah terbiasa dengan seberapa sering mereka mengubah dan melanggar "aturan" yang telah Anda pelajari sebelumnya, yang merupakan fondasi dari perkembangan selanjutnya. pemahaman ahli dan bernuansa. Jadi demi belajar, saya seorang mahasiswa pascasarjana, saya hanya mencoba untuk mendapatkan pemahaman yang lebih "benar" tentang dasar-dasar yang dapat saya bangun nanti misalnya rintangan dll. Terima kasih atas referensi BTW, saya akan menyelidiki buku teks Anda sebutkan juga kertas Anda.
timothy.s.lau
1
log(μi)=xiβ