Memodelkan distribusi Poisson dengan penyebaran berlebihan

15

Saya memiliki satu set data yang saya harapkan untuk mengikuti distribusi Poisson, tetapi overdispersikan sekitar 3 kali lipat. Saat ini, saya memodelkan penyebaran berlebih ini menggunakan sesuatu seperti kode berikut dalam R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Secara visual, ini tampaknya sesuai dengan data empiris saya dengan sangat baik. Jika saya senang dengan fit, apakah ada alasan bahwa saya harus melakukan sesuatu yang lebih kompleks, seperti menggunakan distribusi binomial negatif, seperti yang dijelaskan di sini ? (Jika demikian, petunjuk atau tautan apa pun untuk melakukannya akan lebih dihargai).

Oh, dan saya sadar bahwa ini menciptakan distribusi yang sedikit bergerigi (karena penggandaan oleh tiga), tetapi itu seharusnya tidak masalah untuk aplikasi saya.


Pembaruan: Demi siapa pun yang mencari dan menemukan pertanyaan ini, inilah fungsi R sederhana untuk memodelkan poisson overdispersed menggunakan distribusi binomial negatif. Atur d ke rasio mean / varians yang diinginkan:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(melalui milis R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

chrisamiller
sumber

Jawaban:

11

untuk poisson overdispersed, gunakan binomial negatif, yang memungkinkan Anda untuk parameter varians sebagai fungsi dari mean secara tepat. rnbinom (), dll dalam R.

Cyrus S
sumber
1
Mengapa binomial negatif dan bukan model campuran dengan efek acak tingkat observasi? Ini bukan pertanyaan retoris. Ini adalah "Saya tidak mengerti yang mana yang harus saya pilih." pertanyaan. Selain itu, bagaimana jika saya memiliki situasi tindakan berulang? Ketika data saya kontinu, saya akan menggunakan model campuran linier umum. Distribusi Gamma sering bekerja dengan baik dengan data biologis berkelanjutan, dan model campuran menangani elemen tindakan berulang. Tetapi apa yang dilakukan seseorang jika seseorang telah melakukan overdispersi data jumlah pengukuran berulang?
Bryan
Salah satu alasan mengapa model binomial negatif reparameter sangat populer dengan data poisson terdispersi berlebih adalah b / c memodelkan varians sebagai fungsi rata-rata (sama seperti dalam poisson) dengan parameter dispersi berlebih untuk memodelkan varians "ekstra". Lihat halaman 487 di sini untuk rumus cepat: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 dan halaman wikipedia untuk penjelasan tentang reparameterisasi: en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim
4

Jika nilai rata-rata Anda untuk Poisson adalah 1500, maka Anda sangat dekat dengan distribusi normal; Anda dapat mencoba menggunakannya sebagai perkiraan dan kemudian memodelkan mean dan varians secara terpisah.

Kaya
sumber
Itu hanya sebuah contoh - mungkin memiliki median yang jauh lebih kecil, pada urutan 200 (tergantung bagaimana saya mempartisi data). Itu akan menghalangi menggunakan distribusi normal, kan?
chrisamiller
1
Perkiraan normal untuk distribusi Poisson cukup kuat, perbedaan antara CDF dibatasi oleh sesuatu seperti 0,75 / sqrt (lambda), jika saya ingat dengan benar. Saya tidak akan terlalu khawatir tentang menggunakan lambda = 200, tetapi jika Anda lebih menghindari risiko maka pasti pergi dengan binomial negatif.
Kaya