Jika

9

Asumsikan pengaturan berikut:
Biarkan Zsaya=min{ksaya,Xsaya},saya=1,...,n . Juga XsayaU[Sebuahsaya,bsaya],Sebuahsaya,bsaya>0 . Selain itu ksaya=cSebuahsaya+(1-c)bsaya,0<c<1 yaitu ksaya adalah kombinasi cembung dari batas masing-masing pendukung. c adalah umum untuk semua saya .

Saya pikir saya memiliki distribusi Zsaya benar: ini adalah distribusi campuran .
Ini memiliki bagian yang berkesinambungan,

Xsaya[Sebuahsaya,ksaya),Zsaya=XsayaPr(Zsayazsaya)=zsaya-Sebuahsayabsaya-Sebuahsaya
dan kemudian diskontinuitas dan bagian diskrit di mana massa probabilitas terkonsentrasi:
Pr(Zsaya=ksaya)=Pr(Xsaya>ksaya)=1-Pr(Xsayaksaya)
=1kiaibiai=1(1c)(biai)biai=c

Jadi, dalam semua

FZi(zi)={0zi<aiziaibiaiaizi<ki1kizi

sedangkan untuk fungsi massa / kepadatan campuran "diskrit / kontinu", itu adalah 0 luar interval [ai,ki] , ia memiliki bagian kontinu yaitu densitas seragam U(ai,bi) , 1biai tetapi untuk aizi<ki , dan itu memusatkan massa probabilitas positif c>0 pada zi=ki .

Secara keseluruhan, ini meringkaskan kesatuan atas real.

Saya ingin dapat memperoleh, atau mengatakan sesuatu tentang, distribusi dan / atau momen dari variabel acak Sni=1nZi , sebagai n .

Katakanlah, jika independen, sepertinya sebagai . Bisakah saya "mengabaikan" bagian itu, bahkan sebagai perkiraan? Maka saya akan dibiarkan dengan variabel acak yang berkisar dalam interval , terlihat seperti jumlah seragam yang disensor, dalam perjalanan mereka untuk menjadi "tidak disensor", dan jadi mungkin beberapa teorema batas pusat ... tapi saya mungkin menyimpang daripada berkumpul di sini, jadi, ada saran?XiPr(Sn=inki)=cn0n[i=1nai,i=1nki)

PS: Pertanyaan ini relevan, Menurunkan distribusi jumlah variabel yang disensor , tetapi jawaban @Glen_b bukan yang saya butuhkan - saya harus mengerjakan hal ini secara analitis, bahkan menggunakan perkiraan. Ini adalah penelitian, jadi tolong perlakukan itu seperti pekerjaan rumah - saran umum atau referensi ke literatur cukup baik.

Alecos Papadopoulos
sumber
Jika Anda membutuhkannya, tulis distribusi sebagai , dengan sesuai , di mana adalah set Borel. μ Z i ( B ) = P ( Z iB ) = B g ( t )ZiμZi(B)=P(ZiB)=Bg(t)dt+cIB(ki)gB
Zen
@ Zen saya sudah menulis dalam pertanyaan bahwa distribusinya tidak berkelanjutan. Juga RHS dari membuat jelas bahwa ini singkatan dari kepadatan dalam , tetapi untuk probabilitas untuk -dan saya lebih suka notasi kompak. ff[ai,ki)ki
Alecos Papadopoulos
Sejauh yang saya tahu, notasi dengan ini adalah pdf dan pmf tidak ada; dan kami memiliki bahasa matematika yang tepat untuk menggambarkan distribusi campuran secara tepat. Saya ragu notasi ini akan diterima ketika Anda mempublikasikan penelitian Anda. Pendapat saya saja. Anda harus selalu melakukannya dengan cara yang Anda sukai. f
Zen
@Zen Publishing jauh di depan - dan memang, pengulas mengerutkan kening ketika mereka melihat notasi tidak mapan. Yang ini hanya singkatan ketika seseorang ingin menggambarkan distribusi bertahap dalam banyak baris. Tidak ada "argumen yang mendukung" dan menentang notasi yang sudah ada, seperti misalnya yang Anda gunakan dalam komentar sebelumnya.
Alecos Papadopoulos

Jawaban:

5

Saya akan mengikuti tip Henry dan memeriksa Lyapunov dengan . Fakta bahwa distribusi tidak boleh menjadi masalah, asalkan dan berperilaku dengan benar. Simulasi kasus khusus di mana , , untuk setiap menunjukkan bahwa normalitas baik-baik saja.a i b i a i = 0 b i = 1 k i = 2 / 3 i 1δ=1aibiai=0bi=1ki=2/3i1

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

Zen
sumber
Memang lumayan normal. Senang mendengarnya. Kondisi yang biasa untuk CLT tidak pernah menjadi masalah di sini, pertanyaan saya adalah apakah ada masalah lain yang mungkin halus yang memutarbalikkan hasil asimptotik dan memerlukan CLT yang dimodifikasi. Simulasi Anda menunjukkan bahwa memang diskontinuitas diskrit menjadi diabaikan karena kemungkinan lebih banyak variabel memasukkan jumlah.
Alecos Papadopoulos
Tidak ada yang spesifik, tetapi mereka tidak menimbulkan masalah. Pikirkan mereka sebagai angka terbatas berperilaku, terlepas dari indeks . Mereka dapat bertambah atau berkurang dengan bertambahnya (tidak ada aturan khusus), dan tidak ada satu pun dari mereka yang secara proporsional lebih besar daripada yang lain ... mereka mewakili perbedaan dalam ukuran entitas yang "sebanding". Jadi kondisi Lindeberg pasti berlakuiii
Alecos Papadopoulos
Bagus. Semoga sukses dengan langkah selanjutnya. Sepertinya masalah yang menarik.
Zen
3

Petunjuk:

Dengan asumsi bahwa adalah tetap dan adalah independen maka Anda dapat menghitung rata-rata dan varians dari setiap : misalnya dan Anda tahu . X i μ i σ 2 i Z i μ i = E [cXiμiσi2Ziμi=E[Zi]=cai+ki2+(1c)kiki=cai+(1c)bi

Kemudian, dengan memberikan dan tidak tumbuh terlalu cepat, Anda dapat menggunakan kondisi Lyapunov atau Lindeberg untuk menerapkan teorema batas pusat dengan kesimpulan bahwa menyatu dalam distribusi ke standar normal, atau dalam arti melambaikan tangan kira-kira terdistribusi secara normal dengan rata-rata dan varians .aibi11nσi2(1nZi1nμi)1nZi1nμi1nσi2

Henry
sumber
Terima kasih. Tidak ada masalah dengan 's dan b i ' s, mereka tidak tumbuh dengan indeks, mereka hanya fluktuatif sekitar. Jadi Anda mengatakan pada dasarnya bahwa CLT dapat mencakup juga variabel acak dengan distribusi campuran? aibi
Alecos Papadopoulos
Jika misalnya dan b i diperbaiki, maka Anda akan memiliki variabel acak independen yang terdistribusi secara identik dengan varian terbatas, sehingga teorema batas pusat akan berlaku. Apakah ini distribusi campuran atau tidak tidak mempengaruhi hasil ini. Apa yang saya katakan adalah bahwa Anda dapat memperluas ini ke kasus-kasus di mana variabel acak independen tetapi tidak terdistribusi secara identik, asalkan sarana dan varians tetap masuk akal. aibi
Henry
2

Kekhawatiran utama saya dalam pertanyaan ini adalah apakah seseorang dapat menerapkan CLT "seperti biasa" dalam kasus yang saya periksa. Pengguna @Henry menegaskan bahwa seseorang dapat, pengguna @ Zen menunjukkannya melalui simulasi. Karena didorong, saya sekarang akan membuktikannya secara analitis.

Apa yang akan saya lakukan pertama adalah memverifikasi bahwa variabel ini dengan distribusi campuran memiliki fungsi menghasilkan momen "biasa". Nyatakan nilai yang diharapkan dari Z i , σ i deviasi standarnya, dan versi Z i yang terpusat dan diskala oleh ˜ Z i = Z i - μ iμiZiσiZi . Menerapkan rumus perubahan variabel, kami menemukan bahwa bagian kontinu adalah f ˜ Z ( ˜ z i)=σifZ(zi)=σiZ~i=Ziμiσi
Fungsi penghasil momen ˜ Z sayaharus ˜ M i(t)=E(e ˜ z it)=- e ˜ z sayatdF ˜ Z ( ˜ z i)= ˜ k i ˜ a i σie ˜ z i

fZ~(z~i)=σifZ(zi)=σibiasaya
Z~i
M~i(t)=E(ez~it)=ez~itdFZ~(z~i)=a~ik~iσiez~itbiaidzi+cek~it

dengan ˜ k i=ki-μi

M~i(t)=σibiaiek~itea~itt+cek~it
k~i=kiμiσi,a~i=aiμiσi

M~i(0)=1,M~i(0)=E(Z~)=0M~i(0)=E(Z~i2)=Var(Z~i)=1

kali, (karena nilai MGF nol harus dihitung melalui batas), dan melakukan manipulasi aljabar, saya telah memverifikasi dua persamaan pertama. Kesetaraan ketiga terbukti terlalu melelahkan, tapi saya percaya itu berlaku.

Jadi kami memiliki MGF yang tepat. Jika kita mengambil ekspansi Taylor orde 2 sekitar nol, kita punya

M.~(t)=M.~(0)+M.~(0)t+12M.~(0)t2+Hai(t2)

M.~(t)=1+12t2+Hai(t2)

saya

ϕ~(t)=1+12(sayat)2+Hai(t2)=1-12t2+Hai(t2)

Z~/n

ϕ~Z~/n(t)=ϕ~Z~(t/n)=1-t22n+Hai(t2/n)

1nsayanZ~saya

ϕ~1nsayanZ~saya(t)=saya=1nϕ~Z~(t/n)=saya=1n(1-t22n+Hai(t2/n))

Kemudian

limnϕ~1nsayanZ~saya(t)=limn(1-t22n)n=e-t2/2

e

1nsayanZ~sayadN(0,1)

Z

Fakta bahwa perilaku istimewa pada tingkat individu, dari semua elemen individu, namun lenyap ketika kita mempertimbangkan perilaku rata-rata, saya percaya itu dipamerkan dengan sangat baik menggunakan makhluk jahat seperti variabel acak yang memiliki distribusi campuran.

Alecos Papadopoulos
sumber
aibi(biai)0
@ Zen Masalah mengenai varian independen tetapi tidak terdistribusi rv adalah masalah yang sangat halus, saya tidak berpikir saya masih memahaminya dengan jelas. Kondisi Lyapunov atau Lindeberg yang diketahui hanya cukup untuk dimiliki oleh CLT. Ada kasus-kasus di mana CLT berlaku meskipun kondisi ini tidak. Jadi saya berpikir bahwa jika kita tidak mengikat variannya, maka tidak ada jawaban tunggal, dan masalahnya menjadi sangat spesifik kasus. Bahkan buku Billingsley tidak jelas tentang masalah ini. Pertanyaannya adalah seperti apa sisanya, dan apa yang bisa kita katakan tentang itu.
Alecos Papadopoulos