Memahami parameter di dalam Distribusi Binomial Negatif

37

Saya mencoba untuk menyesuaikan data saya ke dalam berbagai model dan tahu bahwa fitdistrfungsi dari perpustakaan MASSdari Rmemberi saya Negative Binomialsebagai yang terbaik-fit. Sekarang dari halaman wiki , definisi diberikan sebagai:

Distribusi NegBin (r, p) menggambarkan probabilitas kegagalan k dan keberhasilan r dalam percobaan k + r Bernoulli (p) dengan keberhasilan pada percobaan terakhir.

Menggunakan Runtuk melakukan pemasangan model memberi saya dua parameter meandan dispersion parameter. Saya tidak mengerti bagaimana menafsirkan ini karena saya tidak dapat melihat parameter ini di halaman wiki. Yang bisa saya lihat adalah rumus berikut:

Formula Distribusi Binomial Negatif

di mana kjumlah pengamatan dan r=0...n. Sekarang bagaimana saya menghubungkan ini dengan parameter yang diberikan oleh R? File bantuan juga tidak memberikan banyak informasi.

Juga, hanya untuk mengatakan beberapa kata tentang eksperimen saya: Dalam eksperimen sosial yang saya lakukan, saya mencoba menghitung jumlah orang yang dihubungi setiap pengguna dalam periode 10 hari. Ukuran populasi adalah 100 untuk percobaan.

Sekarang, jika modelnya cocok dengan Binomial Negatif, saya dapat secara membabi buta mengatakan bahwa itu mengikuti distribusi itu tetapi saya benar-benar ingin memahami makna intuitif di balik ini. Apa artinya mengatakan bahwa jumlah orang yang dihubungi oleh subjek tes saya mengikuti distribusi binomial negatif? Bisakah seseorang tolong bantu menjelaskan ini?

Legenda
sumber

Jawaban:

42

kθ1/θθ

Ben Bolker
sumber
7
hmm Saya bertanya-tanya mengapa downvote?
Ben Bolker
Formulasi NB (rata-rata, dispersi) juga dijelaskan di bagian formulasi alternatif ( en.wikipedia.org/wiki/… ) sekarang di halaman wiki itu.
mt1022
10

Seperti yang saya sebutkan di posting saya sebelumnya kepada Anda, saya sedang berusaha membuat kepala saya menyesuaikan distribusi untuk menghitung data juga. Inilah yang saya pelajari:

Ketika varians lebih besar dari rata-rata, overdispersi jelas dan dengan demikian distribusi binomial negatif mungkin sesuai. Jika varians dan rerata adalah sama, distribusi Poisson disarankan, dan ketika varians kurang dari rerata, itu distribusi binomial yang direkomendasikan.

Dengan data jumlah yang sedang Anda kerjakan, Anda menggunakan parameterisasi "ekologis" dari fungsi Binomial Negatif di R. Bagian 4.5.1.3 (Halaman 165) dari buku yang tersedia secara bebas ini berbicara dengan ini secara khusus (dalam konteks dari R, tidak kurang!) dan, saya harap, dapat menjawab beberapa pertanyaan Anda:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Jika Anda menyimpulkan bahwa data Anda nol-terpotong (yaitu, probabilitas 0 pengamatan adalah 0), maka Anda mungkin ingin memeriksa rasa nol-terpotong dari NBD yang ada dalam paket R VGAM .

Berikut ini contoh penerapannya:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Saya harap ini membantu.

Jeff Tyzzer
sumber
Halaman 165 dalam buku.
SmallChess