Saya lebih sebagai programmer daripada ahli statistik, jadi saya harap pertanyaan ini tidak terlalu naif.
Ini terjadi dalam eksekusi program sampling secara acak. Jika saya mengambil N = 10 sampel waktu-acak dari status program, saya bisa melihat fungsi Foo dieksekusi, misalnya, I = 3 dari sampel tersebut. Saya tertarik pada apa yang memberitahu saya tentang fraksi waktu F yang sedang dieksekusi.
Saya mengerti bahwa saya terdistribusi secara binerial dengan rata-rata F * N. Saya juga tahu bahwa, mengingat I dan N, F mengikuti distribusi beta. Sebenarnya saya sudah memverifikasi oleh program hubungan antara dua distribusi itu, yaitu
cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1
Masalahnya adalah saya tidak memiliki perasaan intuitif untuk hubungan tersebut. Saya tidak bisa "membayangkan" mengapa itu bekerja.
EDIT: Semua jawaban itu menantang, terutama @ whuber, yang saya masih perlu grok, tetapi membawa statistik agar sangat membantu. Namun demikian saya sadar saya seharusnya mengajukan pertanyaan yang lebih mendasar: Mengingat saya dan N, apa distribusi untuk F? Semua orang telah menunjukkan bahwa itu Beta, yang saya tahu. Saya akhirnya menemukan dari Wikipedia ( konjugat sebelumnya ) bahwa itu tampaknya Beta(I+1, N-I+1)
. Setelah menjelajahinya dengan sebuah program, tampaknya itu jawaban yang tepat. Jadi, saya ingin tahu apakah saya salah. Dan, saya masih bingung tentang hubungan antara dua cdf yang ditunjukkan di atas, mengapa mereka berjumlah 1, dan jika mereka ada hubungannya dengan apa yang benar-benar ingin saya ketahui.
sumber
Jawaban:
Pertimbangkan statistik pesanan dari undian independen dari distribusi yang seragam. Karena statistik pesanan memiliki distribusi Beta , kemungkinan tidak melebihi diberikan oleh integral Beta n + 1 x [ k ] hlmx[0]≤x[1]≤⋯≤x[n] n+1 x[k] p
(Mengapa ini? Berikut ini adalah demonstrasi yang tidak ketat tapi mudah diingat. Kesempatan bahwa terletak di antara dan adalah kesempatan bahwa di luar nilai seragam , di antaranya terletak di antara dan , setidaknya salah satunya terletak di antara dan , dan sisanya terletak di antara dan Untuk urutan pertama dalam sangat kecil kita hanya perlu mempertimbangkan kasus di mana tepatnya satu nilai (yaitu, itu sendiri) terletak di antara dan dan karenanya p p + d p n + 1 k 0 p p p + d p p + d p 1 d p x [ k ] p p + d p n - k p + d p p k ( d p ) ( 1 - p - d p ) n - k dx[k] p p+dp n+1 k 0 p p p+dp p+dp 1 dp x[k] p p+dp n−k melebihi . Karena semua nilai independen dan seragam, probabilitas ini sebanding dengan . Untuk urutan pertama dalam ini sama dengan , tepatnya integrand dari distribusi Beta. Istilah dapat dihitung langsung dari argumen ini sebagai koefisien multinomial atau diturunkan secara tidak langsung sebagai konstanta normalisasi integral.)p+dp pk(dp)(1−p−dp)n−k p k ( 1 - p ) n - k d p 1dp pk(1−p)n−kdp 1B(k+1,n−k+1) (n+1k,1,n−k)
Menurut definisi, kejadian adalah bahwa nilai tidak melebihi . Secara ekuivalen, setidaknya dari nilai tidak melebihi : pernyataan sederhana ini (dan saya harap jelas) memberikan intuisi yang Anda cari. Probabilitas pernyataan setara diberikan oleh distribusi Binomial,k + 1 st p k + 1 px[k]≤p k+1st p k+1 p
Singkatnya , integral Beta memecah perhitungan suatu peristiwa menjadi serangkaian perhitungan: menemukan setidaknya nilai dalam rentang , yang probabilitasnya biasanya kita hitung dengan Binomial cdf, dipecah menjadi satu sama lain kasus-kasus eksklusif di mana tepatnya nilai berada dalam kisaran dan 1 nilai berada dalam kisaran untuk semua kemungkinan , , dan adalah panjang yang sangat kecil. Menjumlahkan semua "windows" seperti itu --yaitu, mengintegrasikan - harus memberikan probabilitas yang sama dengan Binomial cdf.k+1 [0,p] k [0,x] [x,x+dx] x 0≤x<p dx [x,x+dx]
sumber
Lihatlah pdf Binomial sebagai fungsi : dan pdf Beta sebagai fungsi : Anda mungkin dapat melihat bahwa dengan pilihan (integer) yang sesuai untuk dan ini adalah sama. Sejauh yang saya tahu, hanya itu yang ada dalam hubungan ini: cara masuk ke pdf binomial kebetulan disebut distribusi Beta.x
sumber
Ketika Anda dicatat, distribusi Beta menggambarkan distribusi probabilitas percobaan parameter , sedangkan distribusi binomial menggambarkan distribusi hasil parameter . Menulis ulang pertanyaan Anda, apa yang Anda tanyakan adalah mengapa Yaitu, kemungkinan bahwa pengamatan plus satu lebih besar dari harapan pengamatan adalah sama dengan kemungkinan bahwa observasi plus satu lebih besar dari ekspektasi pengamatan.F I P(Fn≤i+1)+P(I+1≤fn)=1P(Fn≤i+1)=P(fn<aku+1)
Saya akui bahwa ini mungkin tidak membantu intuisi perumusan asli masalah, tetapi mungkin membantu untuk setidaknya melihat bagaimana kedua distribusi menggunakan model dasar yang sama dari uji coba Bernoulli berulang untuk menggambarkan perilaku parameter yang berbeda.
sumber
Di tanah Bayesian, distribusi Beta adalah konjugat sebelum parameter p dari distribusi Binomial.
sumber
Tidak dapat mengomentari jawaban lain, jadi saya harus membuat jawaban sendiri.
Posterior = C * Kemungkinan * Sebelumnya (C adalah konstanta yang membuat Posterior terintegrasi ke 1)
Diberikan model yang menggunakan distribusi Binomial untuk kemungkinan, dan distribusi Beta untuk Sebelumnya. Produk dari dua yang menghasilkan Posterior juga merupakan distribusi Beta. Karena Prior dan Posterior keduanya Beta, dan dengan demikian mereka adalah distribusi konjugat . Prior (a Beta) disebut conjugate prior untuk kemungkinan (a Binomial). Misalnya, jika Anda mengalikan Beta dengan Normal, Posterior tidak lagi menjadi Beta. Singkatnya, Beta dan Binomial adalah dua distribusi yang sering digunakan dalam inferensi Bayesian. Beta adalah Konjugat Sebelum Binomial, tetapi kedua distribusi tersebut bukan merupakan subset atau superset dari yang lain.
Gagasan kunci dari inferensi Bayesian adalah kita memperlakukan parameter p sebagai variabel acak yang berkisar dari [0,1] yang bertentangan dengan pendekatan inferensi frekuensi di mana kita memperlakukan parameter p sebagai tetap. Jika Anda melihat lebih dekat ke properti distribusi Beta, Anda akan melihat Mean dan Mode-nya semata-mata ditentukan oleh dan tidak relevan dengan parameter pα β . Ini, ditambah dengan fleksibilitasnya, itulah sebabnya Beta biasanya digunakan sebagai Prior.
sumber
Ringkasan: Sering dikatakan bahwa distribusi Beta adalah distribusi pada distribusi! Tapi apa artinya itu?
Ini pada dasarnya berarti bahwa Anda dapat memperbaiki dan menganggap sebagai fungsi dari . Apa yang dikatakan oleh perhitungan di bawah adalah bahwa nilai meningkat dari ke saat Anda menyetel dari ke . Tingkat peningkatan pada setiap persis pada .n,k P[Bin(n,p)⩾k] p P[Bin(n,p)⩾k] 0 1 p 0 1 p β(k,n−k+1) p
Misalkan menunjukkan variabel acak Binomial dengan sampel dan probabilitas keberhasilan . Menggunakan aljabar dasar yang kita milikiBin(n,p) n p
Ini juga memiliki beberapa bukti kombinatorial yang bagus, anggap itu sebagai latihan!
Jadi kita punya:
Keterangan Untuk melihat versi interaktif dari plot lihatlah ini . Anda dapat mengunduh buku catatan atau cukup menggunakan tautan Binder.
sumber