Mengapa tidak bekerja CLT untuk

16

Jadi kita tahu bahwa jumlah n poissons dengan parameter λ sendiri merupakan poisson dengan nλ . Jadi hipotetis, salah satu bisa mengambil xpoisson(λ=1) dan mengatakan itu sebenarnya 1nxipoisson(λ=1) di mana setiap xi adalah: xipoisson(λ=1/n) , dan mengambil n besar untuk mendapatkan CLT bekerja.

Ini (jelas) tidak berhasil. Saya berasumsi ini ada hubungannya dengan bagaimana CLT bekerja "lebih cepat" untuk variabel acak yang "lebih dekat" ke normal, dan bahwa semakin kecil lambda, semakin kita mendapatkan variabel acak yang sebagian besar 0 dan jarang bervariasi hal lain.

Namun, apa yang saya jelaskan adalah intuisi saya. Apakah ada cara yang lebih formal untuk menjelaskan mengapa demikian?

Terima kasih!

Tal Galili
sumber
6
Sebagai permulaan, CLT mengharuskan Anda untuk membagi i=1nxi oleh n (dalam hal ini Anda akan mendapatkan konvergen ke gaussian).
Alex R.
1
@AlexR. Tidak Anda membaginya dengan n , maka deviasi standar akan menjadi faktor 1/n
Aksakal
4
Saya tidak mengerti apa kaitan pertanyaan ini dengan CLT "tidak berfungsi." CLT menyangkut jumlah standar variabel acak dengan distribusi yang diberikan , sedangkan Anda mengambil variabel acak tunggal dan merenungkan banyak cara untuk membaginya .
Whuber
2
@AlexR Pengaturannya sepertinya salah. Ada dua proses berbeda yang terjadi di sini - penjumlahan dan pembagian - dan tidak ada alasan untuk menganggap mereka harus memiliki karakteristik asimptotik yang serupa.
whuber
3
@Aksakal: sebenarnya, AlexR benar. Jika Anda membaginya dengan , Anda mendapatkan distribusi yang merosot sebagai n . Jika Anda membaginya dengan nn , Anda mendekati distribusi normal dengan sd = 1 sebagain. nn
Cliff AB

Jawaban:

13

Saya setuju dengan @whuber bahwa akar kebingungan tampaknya menggantikan asimptotik penjumlahan di CLT dengan semacam divisi dalam argumen Anda. Dalam CLT kita mendapatkan distribusi tetap kemudian menarik n angka x i dari itu dan menghitung jumlah ˉ x n = 1f(x,λ)nxi . Jika kita terus meningkatnmaka hal yang menarik terjadi: x¯n=1ni=1nxin manaμ,σ2adalah rata-rata dan varian dari distribusif(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Apa yang Anda menyarankan untuk dilakukan dengan Poisson agak mundur: bukan menjumlahkan variabel dari tetap distribusi, Anda ingin membagi dengan tetap distribusi ke pernah berubah bagian. Dengan kata lain Anda mengambil variabel dari tetap distribusi f ( x , λ ) kemudian membagi menjadi x i sehingga n Σ i = 1 x ixxf(x,λ)xi

i=1nxix

Apa yang dikatakan CLT tentang proses ini? Tidak ada. Perhatikan, bagaimana di CLT kita pernah berubah , dandistribusinya yangberubahfn(x)yang menyatu dengandistribusitetapN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Dalam pengaturan Anda, baik jumlah maupun distribusinya f ( x , λ )xf(x,λ) tidak berubah! Mereka sudah diperbaiki. Mereka tidak berubah, mereka tidak bertemu dengan apa pun. Jadi, CLT tidak mengatakan apa-apa tentang mereka.

Juga, CLT tidak mengatakan apa-apa tentang jumlah elemen dalam penjumlahan. Anda dapat memiliki jumlah 1000 variabel dari Poisson (0,001) dan CLT tidak akan mengatakan apa-apa tentang jumlah tersebut. Yang dikatakannya adalah bahwa jika Anda terus meningkatkan N maka pada titik tertentu jumlah ini akan mulai terlihat seperti distribusi normal . Bahkan jika N = 1.000.000 Anda akan mendapatkan perkiraan dekat dari distribusi normal.1Ni=1Nxi,xiPoisson(0.001)

Intuisi Anda benar hanya tentang jumlah elemen dalam penjumlahan, yaitu daripada lebih banyak distribusi awal berbeda dari normal, maka lebih banyak elemen yang Anda perlu menjumlahkan untuk mendapatkan normal. Lebih formal (tapi masih informal) cara akan dengan melihat fungsi karakteristik Poisson: Jika Anda λ > > 1 , yang Anda dapatkan dengan ekspansi Taylor (wrt t ) dari eksponen bersarang: exp ( i λ t - λ / 2 t )

exp(λ(exp(it)1))
λ>>1t
exp(iλtλ/2t2)
Ini adalah fungsi karakteristik dari distribusi normal N(λ,λ2)

Namun, intuisi Anda tidak diterapkan dengan benar: Anda memindahkan penjumlahan di CLT dengan beberapa jenis mengacaukan segalanya, dan menjadikan CLT tidak dapat diterapkan.

Aksakal
sumber
+1 Bahan pengantar adalah kata-kata yang bagus, sangat jelas, dan sampai ke inti permasalahan.
whuber
7

Masalah dengan contoh Anda adalah bahwa Anda membiarkan parameter berubah saat berubah. CLT memberi tahu Anda bahwa untuk distribusi tetap dengan mean dan sd terbatas, seperti n nn ,

xμndN(0,σ) ,

di mana dan σ berasal dari mean dan sd dari distribusi x .μσx

nλm=1/mn>>m is required before the normal approximation is reasonable.

EDIT

xi/nxi). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

Fx¯ntentu saja Fx can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if XiPois(λ), then Y=i=1nXiPois(nλ). And we all learned in our upper division probability course that for large λ, the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

Cliff AB
sumber
5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.

ekvall
sumber
+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber