Apa distribusi rata-rata bulat dari variabel acak Poisson?

20

Jika saya memiliki variabel acak yang terdistribusi Poisson dengan parameter , berapakah distribusi (yaitu rata-rata integer)?X1,X2,,Xnλ1,λ2,,λnY=i=1nXin

Sejumlah Poissons juga Poisson, tetapi saya tidak cukup percaya diri dalam statistik untuk menentukan apakah itu sama untuk kasus di atas.

Lubo Antonov
sumber
@amoeba saya memutar kembali edit judul karena ini sebenarnya bukan "pembulatan." Hasil edit Cardinal sebelumnya, meskipun tidak terlalu tepat, tampaknya lebih disukai karena akurat.
whuber
@whuber Oke. Saya ragu-ragu ketika melakukan pengeditan ini, tetapi memutuskan untuk memasukkan kata "pembulatan" karena saat ini judul tidak mengisyaratkan kesulitan utama di sini (dan juga dengan cara yang menyesatkan). Istilah yang tepat harus "membulatkan ke bawah", jadi mungkin "Apa distribusi rata-rata variabel acak Poisson, dibulatkan ke bawah ?" - Meskipun saya akui kedengarannya agak rumit.
Amuba kata Reinstate Monica
@amoeba suntingan lebih lanjut tentu saja selamat datang!
whuber

Jawaban:

27

Generalisasi pertanyaan menanyakan distribusi ketika distribusi diketahui dan didukung pada bilangan asli. (Dalam pertanyaan, memiliki distribusi Poisson dari parameter dan .)Y=X/mX λ = λ 1 + λ 2 + + λ n m = nXXλ=λ1+λ2++λnm=n

Distribusi mudah ditentukan oleh distribusi , yang kemungkinan menghasilkan fungsi (PGF) dapat ditentukan dalam hal PGF dari . Inilah garis besar derivasi tersebut.m Y XYmYX


Tulis untuk pgf , di mana (menurut definisi) . dibangun dari sedemikian rupa sehingga pgf, , adalahX p n = Pr ( X = n ) m Y X qp(x)=p0+p1x++pnxn+Xpn=Pr(X=n)mYXq

q(x)=(p0+p1++pm1)+(pm+pm+1++p2m1)xm++(pnm+pnm+1++p(n+1)m1)xnm+.

Karena ini konvergen sepenuhnya untuk , kita dapat mengatur ulang istilah menjadi sejumlah potongan formulir|x|1

Dm,tp(x)=pt+pt+mxm++pt+nmxnm+

untuk . Seri power dari fungsi terdiri dari setiap istilah dari seri dimulai dengan : ini kadang-kadang disebut penipisan dari . Pencarian Google saat ini tidak menghasilkan banyak informasi yang berguna tentang penipisan, jadi untuk kelengkapannya, inilah derivasi formula.x t D m , t p m th p t th pt=0,1,,m1xtDm,tpmthptthp

Biarkan menjadi akar persatuan primitif ; misalnya, ambil . Kemudian ia mengikuti dari dan yangm th ω = exp ( 2 i π / m ) ω m = 1 m - 1 j = 0 ω j = 0ωmthω=exp(2iπ/m)ωm=1j=0m1ωj=0

xtDm,tp(x)=1mj=0m1ωtjp(x/ωj).

Untuk melihat ini, perhatikan bahwa operator adalah linier, sehingga cukup untuk memeriksa rumus berdasarkan . Menerapkan sisi kanan untuk memberi { 1 , x , x 2 , ... , x n , ... } x nxtDm,t{1,x,x2,,xn,}xn

xtDm,t[xn]=1mj=0m1ωtjxnωnj=xnmj=0m1ω(tn)j.

Ketika dan berbeda dengan kelipatan , setiap istilah dalam jumlah sama dengan dan kita memperoleh . Kalau tidak, istilah-istilahnya siklus melalui kekuatan dan ini berjumlah nol. Mana Operator ini mempertahankan semua kekuatan kongruen dengan modulo dan membunuh semua yang lain: justru proyeksi yang diinginkan.tnm1xnωtnxtm

Rumus untuk mengikuti dengan mudah dengan mengubah urutan penjumlahan dan mengenali salah satu penjumlahan sebagai geometris, sehingga menuliskannya dalam bentuk tertutup:q

q(x)=t=0m1(Dm,t[p])(x)=t=0m1xt1mj=0m1ωtjp(ωjx)=1mj=0m1p(ωjx)t=0m1(ωj/x)t=x(1xm)mj=0m1p(ωjx)xωj.

Sebagai contoh, pgf dari distribusi Poisson dari parameter adalah . Dengan , dan pgf dari akan menjadiλp(x)=exp(λ(x1))m=2ω=12Y

q(x)=x(1x2)2j=021p((1)jx)x(1)j=x1/x2(exp(λ(x1))x1+exp(λ(x1))x+1)=exp(λ)(sinh(λx)x+cosh(λx)).

Salah satu penggunaan pendekatan ini adalah untuk menghitung momen dan . Nilai turunan dari pgf yang dievaluasi pada adalah momen faktorial . The saat adalah kombinasi linear dari yang pertama saat faktorial. Dengan menggunakan pengamatan ini kami menemukan, misalnya, bahwa untuk Poisson didistribusikan , rata-rata (yang merupakan momen faktorial pertama) sama dengan , rata-rata sama dengan , dan rata-rata sama denganXmYkthx=1kthkthkXλ2(X/2)λ12+12e2λ3(X/3)λ1+e3λ/2(sin(3λ2)3+cos(3λ2)) :

Cara

Berarti untuk ditunjukkan masing-masing dalam warna biru, merah, dan kuning, sebagai fungsi : asimtotik, rata-rata turun oleh dibandingkan dengan rata-rata Poisson asli.m=1,2,3λ(m1)/2

Formula serupa untuk varians dapat diperoleh. (Mereka mendapatkan berantakan sebagai meningkat dan begitu juga dihilangkan Satu hal yang mereka definitif menetapkan adalah bahwa ketika. ada beberapa dari adalah Poisson: tidak memiliki persamaan karakteristik mean dan varians) Berikut adalah plot dari varians sebagai fungsi untuk :mm>1Yλm=1,2,3

Variansi

Sangat menarik bahwa untuk nilai yang lebih besar dari varians meningkat . Secara intuitif, ini disebabkan oleh dua fenomena yang saling bersaing: fungsi lantai secara efektif menghilangkan kelompok nilai yang semula berbeda; ini harus menyebabkan varians menurun. Pada saat yang sama, seperti yang telah kita lihat, cara berubah juga (karena setiap bin diwakili oleh nilai terkecilnya); ini harus menyebabkan istilah yang sama dengan kuadrat dari perbedaan sarana untuk ditambahkan kembali. Peningkatan varian untuk besar menjadi lebih besar dengan nilai lebih besar .λλm

Perilaku varian dengan secara mengejutkan sangat kompleks. Mari kita akhiri dengan simulasi cepat (dalam ) yang menunjukkan apa yang dapat dilakukannya. Plot menunjukkan perbedaan antara varian dan varian untuk Poisson didistribusikan dengan berbagai nilai mulai dari hingga . Dalam semua kasus, plot tampaknya telah mencapai nilai asimptotiknya di sebelah kanan.mYmRmX/mXXλ15000

set.seed(17)
par(mfrow=c(3,4))
temp <- sapply(c(1,2,5,10,20,50,100,200,500,1000,2000,5000), function(lambda) {
  x <- rpois(20000, lambda)
  v <- sapply(1:floor(lambda + 4*sqrt(lambda)), 
              function(m) var(floor(x/m)*m) - var(x))
  plot(v, type="l", xlab="", ylab="Increased variance", 
       main=toString(lambda), cex.main=.85, col="Blue", lwd=2)
})

Plot

whuber
sumber
1
Ini jawaban yang bagus! Mungkin perlu waktu untuk dicerna :)
Lubo Antonov
1
dan itulah mengapa saya berkata "Menggunakan fungsi lantai ... sedikit mempengaruhi varians meskipun dengan cara yang lebih rumit."
Henry
1
+1 Terima kasih atas jawaban terperinci. Tentunya ada cara rumit di mana fungsi lantai mempengaruhi varians.
Dilip Sarwate
1
+1 untuk simulasi dalam R dengan kode --- ini adalah contoh penggunaan sapply()simulasi yang sangat bagus . Terima kasih.
Assad Ebrahim
1
@Roberto Terima kasih. Namun, perbedaan antara " " dan " ", yang murni masalah notasi, benar-benar sepele dan tidak ada impor matematika atau statistik. xs
whuber
12

Seperti yang dikatakan Michael Chernick, jika variabel acak individual independen maka jumlahnya adalah Poisson dengan parameter (rata-rata dan varians) yang dapat Anda sebut λ .i=1nλiλ

Membagi dengan mengurangi rata-rata menjadi λ / n dan varians λ / n 2 sehingga varians akan lebih kecil dari distribusi Poisson yang setara. Seperti yang dikatakan Michael, tidak semua nilai akan berupa bilangan bulat.nλ/nλ/n2

Menggunakan fungsi lantai sedikit mengurangi rata-rata, sekitar , dan sedikit mempengaruhi varians meskipun dengan cara yang lebih rumit. Meskipun Anda memiliki nilai integer, varians masih akan jauh lebih sedikit daripada rata-rata dan karenanya Anda akan memiliki distribusi yang lebih sempit daripada Poisson.1212n

Henry
sumber
terima kasih, bukan hasil yang bisa saya gunakan, tapi setidaknya saya tahu sekarang :)
Lubo Antonov
Jika lambda tidak semuanya sama, bukankah hasilnya lebih seperti binomial negatif daripada Poisson (mengabaikan bagian non-integer untuk saat ini)? Apa yang kulewatkan di sini?
gung - Reinstate Monica
2
@ung: Anda melewatkan poin bahwa individu hanya memengaruhi distribusi melalui jumlah mereka dan berapa banyak. Tidak peduli nilai apa yang mereka ambil: λ 1 = 1 , λ 2 = 2 , λ 3 = 9 akan memberikan hasil yang sama dengan λ 1 = 4 , λ 2 = 4 , λ 3 = 4 . λiλ1=1,λ2=2,λ3=9λ1=4,λ2=4,λ3=4
Henry
10

Fungsi massa probabilitas dari rata-rata variabel acak Poisson independen dapat dituliskan secara eksplisit, meskipun jawabannya mungkin tidak banyak membantu Anda. Seperti Michael Chernick dicatat dalam komentar pada jawaban sendiri, jumlahnya Σ i X i dari independen variabel acak Poisson X i dengan parameter masing- λ i adalah variabel acak Poisson dengan parameter λ = Σ i λ i . Oleh karena itu, P { n Σ i = 1 X i = k } = expn iXiXiλiλ=iλi demikian, Y =n-1Σ n i = 1 Xiadalah variabel taking acak pada nilaik/ndengan probabilitasexp(-λ)λk

P{i=1nXi=k}=exp(λ)λkk!,  k=0,1,2,,
Y^=n1i=1nXik/n. Perhatikan bahwa Y adalahbukanvariabel random integer-dihargai (meskipun itu mengambil nilai-nilai rasional seragam spasi). Ini mengikuti dengan mudah bahwa Y= Ymerupakan variabel random mengambil bilangan bulat bernilai nilaimdengan probabilitas P{Y=m}=P{ 1exp(λ)λkk!Y^Y=Y^m Inibukanfungsi massa probabilitas dari variabel acak Poisson. Rumus untuk mean dan varians dapat ditulis menggunakan fungsi massa probabilitas ini, tetapi mereka jelas tidak mengarah pada jawaban sederhana yang bagus dalam halλdann. Nilai perkiraan dapat diperoleh seperti yang ditunjukkan oleh Henry.
P{Y=m}=P{1ni=1nXi=m}=exp(λ)i=0n1λmn+i(mn+i)!,  m=0,1,2,,
λn
Dilip Sarwate
sumber
Y
Terima kasih untuk formulasi yang keras! Adakah peluang Anda ingin mencoba rumus untuk mean dan varians?
Lubo Antonov
2
Mungkin @whuber akan memposting tautan (atau kutipan buku atau artikel jurnal) di mana rumus-rumus tertutup untuk saat-saat itu dapat ditemukan, atau akan menulis jawaban yang memberikan rumus-rumus itu sendiri, dengan atau tanpa derivasi terperinci.
Dilip Sarwate
@Dilip Klaim saya tentang rumus tertutup tidak didasarkan pada apa pun yang diterbitkan, jadi saya telah mengirim balasan terpisah yang menunjukkan apa yang ada dalam pikiran saya dan bagaimana hal itu dapat digunakan untuk memahami situasi ini.
Whuber
3

Kamu tidak akan menjadi Poisson. Perhatikan bahwa variabel acak Poisson mengambil nilai integer non negatif. Setelah Anda membaginya dengan konstanta, Anda membuat variabel acak yang dapat memiliki nilai non-integer. Itu masih akan memiliki bentuk Poisson. Hanya saja probabilitas diskrit dapat terjadi pada titik-titik non-integer.

Michael R. Chernick
sumber
Y
@ lucas1024 Saya tidak berpikir begitu tetapi saya tidak yakin.
Michael R. Chernick
Xin1
@ JDav Jumlahnya adalah Poisson dengan parameter laju sama dengan jumlah parameter laju individual. Tapi skala OP dengan 1 / n dan kemudian ingin memotong bilangan bulat tepat di bawah Y. Saya tidak tahu persis apa yang terjadi pada distribusi.
Michael R. Chernick
Komentar saya sebelumnya diasumsikan independen.
Michael R. Chernick