Saya mencoba untuk memodelkan data jumlah dalam R yang tampaknya kurang terdispersi (Dispersion Parameter ~ .40). Ini mungkin mengapa model glm
dengan family = poisson
atau binomial negatif ( glm.nb
) tidak signifikan. Ketika saya melihat deskripsi data saya, saya tidak memiliki kemiringan data hitung yang khas dan residu dalam dua kondisi eksperimental saya juga homogen.
Jadi pertanyaan saya adalah:
Apakah saya bahkan harus menggunakan analisis regresi khusus untuk data hitung saya, jika data hitung saya tidak benar-benar berperilaku seperti data hitung? Saya menghadapi ketidaknormalan kadang-kadang (biasanya karena kurtosis), tetapi saya menggunakan metode bootstrap persentil untuk membandingkan cara yang dipangkas (Wilcox, 2012) untuk menjelaskan ketidaknormalan. Bisakah metode untuk menghitung data diganti dengan metode kuat apa pun yang disarankan oleh Wilcox dan direalisasikan dalam paket WRS?
Jika saya harus menggunakan analisis regresi untuk menghitung data, bagaimana saya menjelaskan dispersi yang kurang? Poisson dan distribusi binomial negatif mengasumsikan dispersi yang lebih tinggi, sehingga seharusnya tidak tepat, bukan? Saya berpikir untuk menerapkan distribusi quasi-Poisson , tetapi itu biasanya direkomendasikan untuk dispersi berlebih. Saya membaca tentang model beta-binomial yang tampaknya mampu menjelaskan over-serta underdispersion tersedia dalam
VGAM
paket R. Namun penulis tampaknya merekomendasikan distribusi Poisson tilded , tetapi saya tidak dapat menemukannya dalam paket .
Adakah yang bisa merekomendasikan prosedur untuk data yang kurang tersebar dan mungkin memberikan beberapa contoh kode R untuknya?
Jawaban:
Cara terbaik --- dan standar untuk menangani data Poisson yang kurang tersebar adalah dengan menggunakan Poisson umum, atau mungkin model rintangan. Tiga model jumlah parameter juga dapat digunakan untuk data yang kurang tersebar; misalnya Faddy-Smith, Waring, Famoye, Conway-Maxwell dan model hitungan umum lainnya. Satu-satunya kelemahan dengan ini adalah interpretabilitas. Tetapi untuk data yang kurang tersebar umum, Poisson umum harus digunakan. Ini seperti binomial negatif untuk data yang terlalu banyak disebarkan. Saya membahas ini secara terperinci dalam dua buku saya, Modeling Count Data (2014) dan Regresi Binomial Negatif, edisi ke-2, (2011) keduanya oleh Cambridge University Press. Dalam R paket VGAM memungkinkan untuk regresi Poisson (GP) umum. Nilai negatif dari parameter dispersi menunjukkan penyesuaian untuk dispersi kurang. Anda dapat menggunakan model GP untuk data yang terlalu banyak menyebar, tetapi umumnya model NB lebih baik. Ketika tiba saatnya untuk itu, yang terbaik untuk menentukan penyebab untuk penyebaran kurang dan kemudian pilih model yang paling tepat untuk menghadapinya.
sumber
Saya menemukan Poisson yang tersebar di bawah, yang ada hubungannya dengan frekuensi di mana orang akan memainkan permainan sosial. Ternyata ini adalah karena keteraturan ekstrem di mana orang akan bermain pada hari Jumat. Menghapus data hari Jumat memberi saya perkiraan overdispersed Poisson. Mungkin Anda memiliki opsi untuk mengedit data Anda secara serupa.
sumber
Ada situasi di mana penyebaran kurang bersatu dengan nol-inflasi yang khas untuk anak-anak pilihan dihitung oleh individu dari kedua jenis kelamin. Saya belum menemukan cara untuk menangkap ini hingga saat ini
sumber