Apa yang dimaksud dengan batas bawah ketat pada waktu pengumpul kupon?

20

Dalam masalah klasik Kupon Kolektor , diketahui bahwa waktu diperlukan untuk menyelesaikan satu set kupon yang dipilih secara acak memenuhi , , dan .TnE[T]ndalamnVSebuahr(T)n2Pr(T>ndalamn+cn)<e-c

Batas atas ini lebih baik daripada yang diberikan oleh ketidaksetaraan Chebyshev, yang kira-kira 1/c2 .

Pertanyaan saya adalah: apakah ada yang sesuai yang lebih baik dari Chebyshev batas bawah untuk T ? (mis. sesuatu seperti Pr(T<ndalamn-cn)<e-c )?

David
sumber
Batas bawah yang jelas adalah Pr(T<n)=0 , tapi saya rasa Anda tahu itu ...
onestop

Jawaban:

14

Saya memberikan ini sebagai jawaban kedua karena analisisnya benar-benar dasar dan memberikan hasil yang diinginkan.

Proposisi Untuk c>0 dan n1 ,

P(T<nlogn-cn)<e-c.

Gagasan di balik buktinya sederhana:

  1. Tunjukkan waktu sampai semua kupon dikumpulkan sebagai T = \ sum_ {i = 1} ^ n T_iT=saya=1nTsaya , di mana Tsaya adalah waktu di mana kupon unik ke- saya (sampai sekarang) dikumpulkan. The t_i adalah variabel acak geometris dengan waktu rata-rata \ frac {n} {n-i + 1} .Tsayann-saya+1
  2. Terapkan versi Chernoff terikat dan sederhanakan.

Bukti

Untuk dan sembarang , kita memiliki itu s > 0 P ( T < t ) = P ( e - s T > e - s t ) e s t e e - s Tt s>0

P(T<t)=P(e-sT>e-st)estEe-sT.

Karena dan independen, kita dapat menulis T i E e - s T = n i = 1 E e - s T iT=sayaTsayaTsaya

Ee-sT=saya=1nEe-sTsaya

Sekarang karena adalah geometris, katakanlah dengan probabilitas keberhasilan , maka perhitungan sederhana menunjukkan p i E e - s T i = p iTsayahalsaya

Ee-sTsaya=halsayaes-1+halsaya.

The untuk masalah kita adalah , , , dll Oleh karena itu, p 1 = 1 p 2 = 1 - 1 / n p 3 = 1 - 2 / n n i = 1 E e - s T i = n i = 1 i / nhalsayahal1=1hal2=1-1/nhal3=1-2/n

saya=1nEe-sTsaya=saya=1nsaya/nes-1+saya/n.

Mari kita pilih dan untuk beberapa . Kemudian dan , menghasilkan t = n log n - c n c > 0 e s t = n e - c e s = e 1 / n1 + 1 / n n i = 1 i / ns=1/nt=nlogn-cnc>0

est=ne-c
es=e1/n1+1/n
saya=1nsaya/nes-1+saya/nsaya=1nsayasaya+1=1n+1.

Menyatukan ini, kita mendapatkan

P(T<nlogn-cn)nn+1e-c<e-c

seperti yang diinginkan.

kardinal
sumber
Itu sangat bagus dan hanya apa yang diperintahkan dokter. Terima kasih.
David
@ David, hanya ingin tahu: Apa aplikasi yang dimaksud?
kardinal
Cerita panjang. Saya mencoba untuk membuktikan batas bawah untuk waktu pencampuran rantai Markov yang telah saya buat untuk menganalisis waktu berjalan suatu algoritma yang saya minati - yang ternyata berkurang hingga batas yang lebih rendah dari c masalah kolektor. BTW, saya telah bermain-main dengan mencoba menemukan dengan tepat jenis gaya Chernoff terikat ini, tetapi belum menemukan cara untuk menyingkirkan produk itu di . Panggilan bagus memilih :-). s = 1 / nsayas=1/n
David
@ David, , sementara hampir pasti suboptimal, sepertinya hal yang jelas untuk dicoba karena memberi , yang merupakan istilah yang sama dengan yang diperoleh dalam derivasi untuk batas atas. e s t = n e - cs=1/nest=ne-c
kardinal
1
Permintaan : Bukti yang saya berikan di atas adalah milik saya. Saya mengerjakannya karena senang, karena masalahnya membuat saya penasaran. Namun, saya tidak mengklaim hal-hal baru. Memang, saya tidak bisa membayangkan bahwa bukti yang sama menggunakan teknik yang sama belum ada dalam literatur. Jika ada yang tahu referensi, silakan posting sebagai komentar di sini. Saya akan sangat tertarik untuk mengetahui satu.
kardinal
9

Meskipun @ cardinal telah memberikan jawaban yang memberikan batasan tepat yang saya cari, saya telah menemukan argumen gaya Chernoff yang serupa yang dapat memberikan batasan yang lebih kuat:

Proposisi : (ini lebih kuat untuk )c > π 2

Pr(Tnlogn-cn)exp(-3c2π2).
c>π23

Bukti :

Seperti dalam jawaban @ cardinal, kita dapat menggunakan fakta bahwa adalah jumlah variabel acak geometris independen dengan probabilitas keberhasilan . Oleh karena itu, dan .T i p i = 1 - i / n E [ T i ] = 1 / p i E [ T ] = n i = 1 E [ T i ] = n n i = 1 1TTsayahalsaya=1-saya/nE[Tsaya]=1/halsayaE[T]=saya=1nE[Tsaya]=nsaya=1n1sayanlogn

Tentukan sekarang variabel baru , dan . Kita kemudian dapat menulis S : = i S i Pr ( T n log n - c n ) Pr ( T E [ T ] - c n ) = Pr ( S - c n ) = Pr ( exp ( - s SSsaya: =Tsaya-E[Tsaya]S: =sayaSsaya

Pr(Tnlogn-cn)Pr(TE[T]-cn)=Pr(S-cn)
=Pr(exp(-sS)exp(scn))e-scnE[e-sS]

Menghitung rata-rata, yang kita miliki

es-1sez

E[e-sS]=sayaE[e-sSsaya]=sayaes/halsaya1+1halsaya(es-1)e12s2sayahalsaya-2
mana ketidaksetaraan mengikuti dari fakta bahwa dan juga untuk .es-1sz0ez1+ze12z2z0

Jadi, karena , kita dapat menulis Pr(Tnlogn-cn) e 1sayahalsaya-2=n2saya=1n-11saya2n2π2/6

Pr(Tnlogn-cn)e112(nπs)2-scn.

Meminimalkan lebih dari , kami akhirnya memperoleh s>0

Pr(Tnlogn-cn)e-3c2π2
David
sumber
1
(+1) Modulo beberapa kesalahan ketik kecil, ini bagus. Memperluas sekitar sesuatu yang dekat dengan rata-rata seperti yang telah Anda lakukan seringkali bekerja lebih baik. Saya tidak terkejut melihat konvergensi tatanan yang lebih tinggi mengingat hasil asimptotik. Sekarang, jika Anda menunjukkan serupa seperti batas atas, yang membuktikan adalah subexponential dalam terminologi Vershynin, yang memiliki banyak implikasi mengenai konsentrasi ukuran. (Tnlogn)/n
kardinal
1
Argumen itu tampaknya tidak menggeneralisasi langsung ke batas atas. Sambil menukar untuk (dan untuk ), seseorang dapat mengikuti langkah-langkah yang sama hingga titik menghitung . Namun, pada titik ini, yang terbaik yang bisa saya lakukan adalah menggunakan , yang masih menyisakan dan saya tidak tidak tahu harus berbuat apa dengan inic-cs-sE[esS]sayae-s/halsaya1-shalsayae-z1-zexp(z22(1-z))
E[esS]e12s2sayahalsaya2(1-s/halsaya)
David
2
Yang cukup menarik, meskipun, seluruh argumen (untuk batas bawah) tampaknya bekerja tidak hanya untuk masalah kupon kolektor, tetapi untuk setiap jumlah non-identik, variabel geometri independen dengan varians terbatas. Khususnya: diberikan , di mana setiap adalah GV independen dengan probabilitas keberhasilan , dan di mana , kemudian T=sayaTsayaTsayahalsayasayahalsaya-2SEBUAH<
Pr(TE[T]-Sebuah)e-Sebuah22SEBUAH
David
4

Catatan Penting : Saya telah memutuskan untuk menghapus bukti yang saya berikan pada awalnya di jawaban ini. Itu lebih lama, lebih komputasional, menggunakan palu yang lebih besar, dan membuktikan hasil yang lebih lemah dibandingkan dengan bukti lain yang saya berikan. Di sekitar, pendekatan yang lebih rendah (dalam pandangan saya). Jika Anda benar - benar tertarik, saya kira Anda dapat melihat hasil edit.

Hasil asimptotik yang saya kutip semula dan yang masih ditemukan di bawah dalam jawaban ini menunjukkan bahwa sebagai kita dapat melakukan sedikit lebih baik daripada yang dibuktikan dalam jawaban lain, yang berlaku untuk semua .n n


Hasil asimptotik berikut ini berlaku

P(T>nlogn+cn)1-e-e-c

dan

P(Tnlogn-cn)e-ec.

Konstanta dan batasannya diambil sebagai . Perhatikan bahwa, meskipun dipisahkan menjadi dua hasil, hasilnya hampir sama karena tidak dibatasi menjadi tidak negatif dalam kedua kasus.cRnc

Lihat, misalnya, Motwani dan Raghavan, Randomized Algorithms , hal. 60--63 untuk bukti.


Juga : David dengan ramah memberikan bukti untuk batas atas yang dinyatakan dalam komentar untuk jawaban ini.

kardinal
sumber
Ya, itu berlaku untuk setiap tetap . Bukti (sangat sederhana) dapat ditemukan, misalnya dalam buku Levin, Peres dan Wilmer, Markov Chains and Mixing Times, Proposisi 2.4. Buktinya tidak bekerja untuk batas bawah. n
David
1
Bahkan, saya mungkin juga menuliskan bukti di sini: "Biarkan menjadi peristiwa bahwa tipe [kupon] ke- tidak muncul di antara kupon pertama yang diambil. Perhatikan dulu bahwa . Karena setiap percobaan memiliki probabilitas tidak menggambar kupon dan uji coba independen, sisi kanan di atas dibatasi di atas oleh , membuktikan (2.7). " SEBUAHsayasayanlogn+cnP(τ>nlogn+cn)=P(sayaSEBUAHsaya)sayaP(SEBUAHsaya)1-n-1sayasaya(1-1/n)nlogn+cnnexp(nlogn+cnn)=e-c
David
@ David, itu bagus dan cukup sederhana. Saya dengan cepat bermain dengan memperluas formula inklusi-eksklusi oleh istilah lain, tetapi tidak sampai ke mana-mana dengan cepat dan belum punya waktu untuk melihatnya lebih jauh. Acara setara dengan acara yang tidak ada kupon yang tersisa setelah uji coba . Harus ada martingale yang terkait dengan itu. Apakah Anda mencoba ketidaksetaraan Hoeffding pada martingale terkait (dianggap)? Hasil asimptotik menunjukkan konsentrasi ukuran yang kuat. {T<tn}tn
kardinal
@ David, ada flip tanda di bukti Anda di atas, tapi saya yakin itu jelas bagi pembaca lain juga.
kardinal
@ David, silakan lihat jawaban saya yang diposting untuk pertanyaan Anda. Metodenya berbeda dari batas atas yang Anda berikan, tetapi alat yang digunakan hampir sama mendasar, berbeda dengan jawaban yang saya berikan di sini.
kardinal
2

Benjamin Doerr memberikan (dalam bab "Menganalisis Heuristik Pencarian Acak: Alat dari Teori Probabilitas" dalam buku "Teori Heuristik Pencarian Acak", lihat tautan untuk PDF online) bukti yang agak sederhana dari

Proposisi Biarkan menjadi waktu berhenti dari proses pengumpulan kupon. Kemudian .TPr[T(1-ϵ)(n-1)dalamn]e-nϵ

Ini tampaknya memberikan asimptotik yang diinginkan (dari jawaban kedua @ cardinal), tetapi dengan keuntungan berlaku untuk semua dan .nϵ

Ini sketsa bukti.

Sketsa Bukti: Misalkan adalah peristiwa di mana kupon ke- dikumpulkan di undian pertama . Dengan demikian, . Fakta kuncinya adalah bahwa berkorelasi negatif, untuk setiap , . Secara intuitif, ini cukup jelas, karena mengetahui bahwa kupon -th di pertama menarik akan membuat kecil kemungkinan bahwa kupon -th juga ditarik dalam pertama menarik. XsayasayatPr[Xsaya=1]=(1-1/n)tXsayasaya[n]Pr[sayasaya,Xsaya=1]sayasayaPr[Xsaya=1]sayatjt

Satu dapat membuktikan klaim, tetapi memperbesar set dengan 1 pada setiap langkah. Kemudian mengurangi untuk menunjukkan bahwa , untuk . Secara ekuivalen, dengan rata-rata, itu mengurangi untuk menunjukkan bahwa . Doerr hanya memberikan argumen intuitif untuk ini. Satu jalan ke bukti adalah sebagai berikut. Orang dapat mengamati bahwa dikondisikan pada kupon datang setelah semua kupon di , bahwa probabilitas menggambar kupon baru dari setelah menggambar sejauh ini sekarang , bukannya sebelumnyasayaPr[sayasaya,Xsaya=1|Xj=1]Pr[sayasaya,Xsaya=1]jsayaj I I k | Saya | - kPr[sayasaya,Xsaya=1|Xj=0]Pr[sayasaya,Xsaya=1]jsayasayak | Saya| -k|saya|-kn-1 jI|saya|-kn . Jadi mendekomposisi waktu untuk mengumpulkan semua kupon sebagai jumlah variabel acak geometrik, kita dapat melihat bahwa pengkondisian pada -coupon datang setelah meningkatkan probabilitas keberhasilan, dan dengan demikian pengkondisian hanya membuatnya lebih mungkin untuk mengumpulkan kupon sebelumnya ( oleh dominasi stokastik: setiap variabel acak geometris meningkat, dalam hal dominasi stokastik, oleh pengkondisian, dan dominasi ini kemudian dapat diterapkan ke jumlah).jsaya

Dengan korelasi negatif ini, berarti , yang memberikan diinginkan terikat dengan . t = ( 1 - ϵ ) ( n - 1 ) ln nPr[T(1-ϵ)(n-1)dalamn](1-(1-1/n)t)nt=(1-ϵ)(n-1)dalamn

miforbes
sumber