Beberapa kali rata-rata empiris yang diharapkan akan melebihi nilai

11

Diberikan urutan variabel acak iid, katakanlah, untuk , saya mencoba untuk mengikat berapa kali rata-rata empiris berarti akan melebihi nilai, , saat kami terus menggambar sampel, yaitu: i = 1 , 2 , . . . , n 1Xi[0,1]i=1,2,...,nc0T d e f = n j=1P({ 11ni=1nXic0

T=defj=1nP({1ji=1jXic})

Jika kita mengasumsikan bahwa untuk beberapa , kita dapat menggunakan ketidaksetaraan Hoeffding untuk sampai padaa > 0c=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

Yang terlihat bagus (mungkin) tetapi sebenarnya cukup longgar, apakah ada cara yang lebih baik untuk membatasi nilai ini? Saya berharap mungkin ada cara karena berbagai peristiwa (untuk masing-masing ) jelas tidak independen, saya tidak mengetahui cara untuk mengeksploitasi ketergantungan ini. Juga, alangkah baiknya untuk menghapus batasan bahwa lebih besar dari rata-rata.cjc

sunting : Pembatasan c menjadi lebih besar dari rata-rata dapat dihapus jika kita menggunakan Ketimpangan Markov sebagai berikut:

Tj=1n1jE[X]c=E[X]Hnc
Yang lebih umum, tetapi jauh lebih buruk daripada batas di atas, meskipun jelas bahwa T harus berbeda setiap kali cE[X] .
fairidox
sumber
Definisi Anda tidak sesuai dengan deskripsi Anda tentang itu. Jika " " dihapus itu akan menjadi jumlah yang diharapkan dari pelampaasan , tetapi seperti yang tertulis itu adalah kombinasi linear dari waktu . Ini tidak secara nyata merupakan harapan karena probabilitasnya tidak saling eksklusif. Misalnya, ketika , . Tj×cc0T=n(n+1)/2
Whuber
@whuber oh, benar, terima kasih, saya sudah perbaiki di atas.
fairidox
Saya perhatikan Anda mengubah batas atas Anda. Sekarang tampaknya negatif ;-).
whuber
Tidakkah " " dalam eksponensial dikuadratkan? - Ok itu disederhanakan dengan domain [0,1]j
Alecos Papadopoulos

Jawaban:

1

Ini adalah pendekatan yang dibuat dengan tangan, dan saya akan sangat menghargai beberapa komentar tentang itu, (dan yang mengkritik biasanya yang paling bermanfaat). Jika saya mengerti dengan benar, OP menghitung sampel berarti , di mana setiap sampel berisi observasi +1 sampel sebelumnya dari rv baru. distribusi setiap mean sampel. Lalu kita bisa menulis x¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Pertimbangkan ukuran sampel setelah distribusi mean sampel hampir normal, menunjukkan itu . Lalu kita bisa menulismG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

Memecahkan kita memperoleh mana adalah standar normal cdf, adalah standar deviasi dari proses iid, dan adalah artinya. Memasukkan ke dalam terikat dan mengatur ulang kita dapatkanG^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Perhatikan bahwa batasan ini juga tergantung pada varian proses. Apakah ini ikatan yang lebih baik daripada yang disajikan dalam pertanyaan? Ini akan sangat tergantung pada seberapa "cepat" distribusi rata-rata sampel menjadi "hampir normal". Untuk memberikan contoh angka, asumsikan bahwa . Asumsikan juga bahwa variabel acak seragam dalam . Kemudian dan . Pertimbangkan deviasi 10% dari nilai tengah, yaitu atur . lalu: sudah untuk batas yang saya usulkan (yang berarti untuk ) menjadi lebih ketat. Untuk batas Hoeffding adalahm=30[0,1]σ=112 a=0,05n=34n>30n=10078,536,2199,538,5μ=12a=0.05n=34n>30n=10078.5sedangkan batas yang saya usulkan adalah . The Hoeffding terikat konvergen ke sedangkan terikat Saya mengusulkan untuk Jika Anda meningkatkan perbedaan antara dua batas mengurangi namun tetap terlihat: untuk deviasi 20%, , yang Hoeffding terikat konvergen ke sementara terikat Saya mengusulkan konvergen ke (yaitu jumlah dari cdf normal memberikan kontribusi sangat sedikit untuk keseluruhan terikat). Agak lebih umum, kami perhatikan bahwa untuk , batas Hoeffding bertemu36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
sementara saya terikat ke
Abm

Karena untuk nilai-nilai kecil dari (yang lebih merupakan kasus yang menarik) menjadi sejumlah besar, masih ada kasus bahwa dapat mengungguli dalam ketat, bahkan jika sampel sedemikian rupa sehingga distribusi sampel berarti konvergen perlahan ke distribusi normal.H b A baHbAb

Alecos Papadopoulos
sumber
" (yaitu tidak lebih dari ambang ukuran sampel yang diasumsikan orang perlu untuk mendapatkan perkiraan normal dalam distribusi mean sampel) " "apa yang Anda bicarakan di sini?
Glen_b -Reinstate Monica
Tidak ada yang penting. Ketika saya menulis beberapa baris di atas, aturan praktis sehingga distribusi rata-rata sampel adalah "banyak" seperti biasa, adalah bahwa kita memerlukan setidaknya ukuran sampel 30. Jadi untuk ukuran sampel 100, dan deviasi 20% kasus, ikatan saya adalah yaitu - dengan kata lain bagian dari batas menyumbang sangat sedikit. m + 0,530.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos
Kecuali jika Anda dapat menyatakan keadaan di mana ia berlaku , harap hindari menyebut hal itu sebagai aturan umum dalam pengertian umum. Angka 30 benar-benar sewenang-wenang (biasanya terlalu lemah atau terlalu kuat), dan 30 juga muncul dalam kasus Anda, saya percaya kebetulan sederhana.
Glen_b -Reinstate Monica
1
@ Glen_b "30" bahkan bukan kebetulan - Saya hanya menggunakannya untuk memberikan contoh angka. Saya tidak keberatan dengan masalah ini, saya tidak suka "aturan praktis" (terutama ketika mereka meragukan). Saya telah membuat beberapa perubahan dalam jawaban saya. Terima kasih atas masukannya.
Alecos Papadopoulos
@ Glen_b Terima kasih atas memori yang mungkin tidak stasioner (panjang)!
Alecos Papadopoulos