Bantu saya memahami distribusi Bayesian sebelum dan posterior

125

Dalam kelompok siswa, ada 2 dari 18 yang kidal. Temukan distribusi posterior siswa kidal dalam populasi dengan asumsi tidak informatif sebelumnya. Ringkas hasilnya. Menurut literatur 5-20% orang kidal. Pertimbangkan informasi ini di prior Anda dan hitung posterior baru.

Saya tahu distribusi beta harus digunakan di sini. Pertama, dengan nilai dan sebagai 1? Persamaan yang saya temukan dalam bahan untuk posterior adalahαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N = 18 ,N=18

Mengapa dalam persamaan itu? ( menunjukkan proporsi orang kidal). Tidak diketahui, jadi bagaimana bisa dalam persamaan ini? Bagi saya tampaknya konyol untuk menghitung diberikan dan menggunakannya dalam persamaan pemberian . Nah, dengan sampel hasilnya adalah . The harus saya menarik kesimpulan dari itu?rrrYrrr=2/180,0019f

Persamaan yang memberikan nilai yang diharapkan dari diketahui dan bekerja lebih baik dan memberi saya yang terdengar benar. Persamaannya adalah dengan nilai ditugaskan untuk dan . Nilai apa yang harus saya berikan dan untuk memperhitungkan informasi sebelumnya?RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

Beberapa tips tentu akan sangat dihargai. Ceramah umum tentang distribusi sebelumnya dan posterior juga tidak akan merugikan (saya memiliki pemahaman yang samar-samar tentang apa itu tetapi hanya samar-samar). Ingatlah bahwa saya bukan ahli statistik yang sangat maju (sebenarnya saya adalah ilmuwan politik dari perdagangan utama saya) jadi matematika canggih mungkin akan terbang di atas kepalaku.

Bob
sumber
4
Apakah Anda memperhatikan pertanyaan dan jawaban ini ?
David Robinson
7
Ungkapan " Temukan distribusi posterior siswa kidal " tidak masuk akal. Variabel acak memiliki distribusi, dan "siswa kidal" bukan rv. Saya kira Anda berniat " Temukan distribusi posterior proporsi siswa kidal ". Penting untuk tidak mengabaikan detail seperti itu, tetapi untuk menjadi jelas tentang apa yang sebenarnya Anda bicarakan.
Glen_b
2
Sebenarnya, membaca pertanyaan Anda tampaknya bagi saya bahwa masalah Anda bukan statistik Bayesian semata-mata karena hanya memahami distribusi probabilitas; itu selalu menjadi kasus bahwa argumen fungsi distribusi (atau fungsi probabilitas seperti yang Anda miliki di sana) adalah fungsi yang tidak diketahui (variabel acak). Itu sepenuhnya poin dari mereka.
Glen_b
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
gung

Jawaban:

234

Pertama-tama saya jelaskan apa itu konjugat sebelumnya . Saya kemudian akan menjelaskan analisis Bayesian menggunakan contoh spesifik Anda. Statistik Bayesian melibatkan langkah-langkah berikut:

  1. Tentukan distribusi sebelumnya yang menggabungkan keyakinan subjektif Anda tentang suatu parameter (dalam contoh Anda, parameter yang menarik adalah proporsi orang kidal). Sebelumnya dapat "tidak informatif" atau "informatif" (tetapi tidak ada sebelumnya yang tidak memiliki informasi, lihat diskusi di sini ).
  2. Kumpulkan data.
  3. Perbarui distribusi Anda sebelumnya dengan data menggunakan teorema Bayes untuk mendapatkan distribusi posterior. Distribusi posterior adalah distribusi probabilitas yang mewakili keyakinan Anda yang diperbarui tentang parameter setelah melihat data.
  4. Analisis distribusi posterior dan rangkum (rata-rata, median, sd, kuantil, ...).

Dasar dari semua statistik bayesian adalah teorema Bayes, yaitu

posteriorprior×likelihood

Dalam kasus Anda, kemungkinannya adalah binomial. Jika distribusi prior dan posterior berada dalam keluarga yang sama, prior dan posterior disebut distribusi konjugat . Distribusi beta adalah konjugat sebelumnya karena posterior juga merupakan distribusi beta. Kami mengatakan bahwa distribusi beta adalah keluarga konjugat untuk kemungkinan binomial. Analisis konjugasi mudah dilakukan tetapi jarang terjadi dalam masalah dunia nyata. Dalam kebanyakan kasus, distribusi posterior harus ditemukan secara numerik melalui MCMC (menggunakan Stan, WinBUGS, OpenBUGS, JAGS, PyMC atau beberapa program lain).

Jika distribusi probabilitas sebelumnya tidak berintegrasi ke 1, itu disebut prior tidak patut , jika itu berintegrasi ke 1 itu disebut prior yang tepat . Dalam kebanyakan kasus, prior yang tidak tepat tidak menimbulkan masalah besar untuk analisis Bayesian. Distribusi posterior harus tepat, yaitu posterior harus berintegrasi ke 1.

Aturan praktis ini mengikuti langsung dari sifat prosedur analisis Bayesian:

  • Jika prior tidak informatif, posterior sangat ditentukan oleh data (posterior digerakkan oleh data)
  • Jika prior adalah informatif, posterior adalah campuran dari prior dan data
  • Semakin informatif sebelumnya, semakin banyak data yang Anda butuhkan untuk "mengubah" kepercayaan Anda, sehingga dapat dikatakan karena posterior sangat didorong oleh informasi sebelumnya
  • Jika Anda memiliki banyak data, data akan mendominasi distribusi posterior (mereka akan melebihi sebelumnya)

Tinjauan yang sangat baik tentang beberapa kemungkinan prior "informatif" dan "tidak informatif" untuk distribusi beta dapat ditemukan di posting ini .

Katakanlah beta Anda sebelumnya adalah mana adalah proporsi orang kidal. Untuk menentukan parameter sebelumnya dan , penting untuk mengetahui mean dan varians dari distribusi beta (misalnya, jika Anda ingin sebelum Anda memiliki mean dan varians tertentu). Maksudnya adalah . Jadi, setiap kali , rerata adalah . Varian dari distribusi beta adalah . Sekarang, hal yang mudah adalah Anda dapat memikirkan danBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβseperti data sebelumnya yang diamati (pseudo-), yaitu kidal dan kanan dari sampel (pseudo-) ukuran . The distribusi seragam (semua nilai-nilai sama-sama mungkin) dan adalah setara setelah mengamati dua orang keluar yang satu kidal dan satu lagi kidal.αβneq=α+βBeta(πLH|α=1,β=1)πLH

Distribusi beta posterior hanyalah mana adalah ukuran sampel dan adalah jumlah orang kidal dalam sampel. Posterior rata karena itu . Jadi untuk menemukan parameter distribusi beta posterior, kita cukup menambahkan handers kidal ke dan handers kanan ke . Varians posterior adalahBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1). Perhatikan bahwa prior yang sangat informatif juga mengarah ke varian yang lebih kecil dari distribusi posterior (grafik di bawah menggambarkan poin dengan baik).

Dalam kasus Anda, dan dan prior Anda adalah seragam yang tidak informatif, jadi . Distribusi posterior Anda karena itu . Rata-rata posterior adalah . Berikut ini adalah grafik yang menunjukkan sebelumnya, kemungkinan data dan posteriorz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

Sebelumnya, kemungkinan data dan distribusi posterior dengan seragam sebelumnya

Anda melihat bahwa karena distribusi sebelumnya tidak informatif, distribusi posterior Anda sepenuhnya digerakkan oleh data. Juga diplot adalah interval kepadatan tertinggi (HDI) untuk distribusi posterior. Bayangkan bahwa Anda meletakkan distribusi posterior Anda dalam baskom 2D dan mulai mengisi air hingga 95% dari distribusi berada di atas garis air. Titik-titik di mana garis air bersinggungan dengan distribusi posterior membentuk 95% -HDI. Setiap titik di dalam HDI memiliki probabilitas lebih tinggi daripada titik di luarnya. Juga, HDI selalu menyertakan puncak distribusi posterior (yaitu mode). HDI berbeda dari interval kredibel 95% yang sama di mana 2,5% dari setiap ekor posterior dikeluarkan (lihat di sini ).

Untuk tugas kedua Anda, Anda diminta untuk memasukkan informasi bahwa 5-20% dari populasi adalah orang kidal. Ada beberapa cara untuk melakukan itu. Cara termudah adalah dengan mengatakan bahwa distribusi beta sebelumnya harus memiliki rata-rata yang merupakan rata-rata dan . Tetapi bagaimana cara memilih dan dari distribusi beta sebelumnya? Pertama, Anda ingin rata-rata distribusi Anda sebelumnya menjadi dari sampel semu ukuran sampel setara . Secara lebih umum, jika Anda ingin sebelum Anda memiliki rata-rata dengan ukuran sampel semu , sesuai0.1250.050.2αβ0.125neqmneqαdan nilai adalah: dan . Yang harus Anda lakukan sekarang adalah memilih ukuran sampel semu yang menentukan seberapa yakin Anda tentang informasi sebelumnya. Katakanlah Anda sangat yakin tentang informasi Anda sebelumnya dan set . Parameter distribusi sebelumnya Anda di sana dan . Distribusi posterior adalah dengan rata-rata sekitar yang secara praktis sama dengan rata-rata sebelumnya dariβα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125. Informasi sebelumnya mendominasi posterior (lihat grafik berikut):

Sebelumnya, kemungkinan data dan distribusi posterior dengan informasi sebelumnya yang kuat

Jika Anda kurang yakin tentang informasi sebelumnya, Anda dapat mengatur sampel semu Anda, misalnya, , yang menghasilkan dan untuk distribusi beta Anda sebelumnya. Distribusi posterior adalah dengan rata-rata sekitar . Rata-rata posterior sekarang dekat rata-rata data Anda ( ) karena data melebihi sebelumnya. Berikut adalah grafik yang menunjukkan situasi:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

Sebelumnya, kemungkinan data dan distribusi posterior dengan beta sebelum sesuai dengan ukuran sampel semu 3

Metode yang lebih maju dalam menggabungkan informasi sebelumnya adalah dengan mengatakan bahwa kuantil dari distribusi beta Anda sebelumnya harus sekitar dan kuantil harus sekitar . Ini sama dengan mengatakan bahwa Anda 95% yakin bahwa proporsi orang kidal dalam populasi terletak antara 5% dan 20%. Fungsi dalam paket R menghitung nilai dan sesuai dari distribusi beta yang sesuai dengan kuantil tersebut. Kodenya adalah0.0250.050.9750.2α βbeta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

Tampaknya distribusi beta dengan parameter dan memiliki properti yang diinginkan. Rata-rata sebelumnya adalah yang mendekati rata-rata data Anda ( ). Sekali lagi, distribusi sebelumnya ini menggabungkan informasi sampel-pseudo dengan ukuran sampel setara sekitar . Distribusi posterior adalah dengan rata-rata yang sebanding dengan rata-rata analisis sebelumnya menggunakan sangat informatif sebelumnya sebelumnya. Berikut adalah grafik yang sesuai:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

Sebelumnya, kemungkinan data dan distribusi posterior dengan sebelumnya yang memiliki 0,05 dan 0,975 kuantil 0,05 dan 0,2

Lihat juga referensi ini untuk tinjauan singkat tapi bagus tentang penalaran Bayesian dan analisis sederhana. Pengantar yang lebih lama untuk analisis konjugat, terutama untuk data binomial dapat ditemukan di sini . Pengantar umum tentang pemikiran Bayesian dapat ditemukan di sini . Lebih banyak slide mengenai aspek statistik Baysian ada di sini .

COOLSerdash
sumber
1
Mengapa kami memilih distribusi Beta di sini?
Metariat
1
@ Metalik Alasan utama adalah bahwa Beta adalah konjugat sebelum distribusi binomial. Ini berarti bahwa jika kita memilih Beta sebagai sebelumnya, posterior juga akan menjadi Beta. Alasan selanjutnya adalah bahwa Beta antara 0 dan 1 dan sangat fleksibel. Ini termasuk seragam, misalnya. Tetapi setiap distribusi yang tepat dengan dukungan dalam dapat digunakan seperti sebelumnya. Hanya saja posterior lebih sulit untuk dihitung. (0,1)
COOLSerdash
Apakah Anda masih memiliki dokumen untuk "Intro to Bayesian thinking"? Tautan Dropbox sudah mati.
bs7280
@ bs7280 Saya telah memperbarui tautannya. Mereka harus bekerja lagi sekarang.
COOLSerdash
1
@meduz Sebenarnya, tidak ada "uninformative" nyata sebelumnya. Saya ingin merujuk Anda pada jawaban yang sangat baik dari Tim pada diskusi ini.
COOLSerdash
8

Distribusi beta dengan = 1 dan = 1 sama dengan distribusi seragam. Jadi faktanya seragam. Anda mencoba mencari informasi tentang parameter distribusi (dalam hal ini, persentase orang kidal dalam sekelompok orang). Status rumus Bayes:βαβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

yang Anda tunjukkan sebanding dengan:

α ( Y 1 , . . . , N | r ) * P ( r )P(r|Y1,...,n) (Y1,...,n|r)P(r)

Jadi pada dasarnya Anda mulai dengan keyakinan Anda sebelumnya tentang proporsi hander kiri dalam grup (P (r), yang Anda gunakan dist seragam untuk), kemudian mempertimbangkan data yang Anda kumpulkan untuk menginformasikan prior Anda (binomial dalam hal ini, baik Anda tangan kanan atau kiri, jadi ). Distribusi binomial memiliki konjugat beta sebelumnya, yang berarti bahwa distribusi posteriorP ( r | Y 1 , . . . N ) αP(Y1,...,n|r)P(r|Y1,...n), distribusi paramter setelah mempertimbangkan data dalam keluarga yang sama dengan sebelumnya. r di sini tidak diketahui pada akhirnya. (dan terus terang itu bukan sebelum mengumpulkan data. Kami punya ide yang cukup bagus tentang proporsi orang kidal di masyarakat.) Anda sudah mendapatkan distribusi sebelumnya (asumsi r) dan Anda telah mengumpulkan data dan menggabungkan keduanya. Posterior adalah asumsi baru Anda tentang distribusi hander kiri setelah mempertimbangkan data. Jadi Anda mengambil kemungkinan data, dan mengalikannya dengan seragam. Nilai yang diharapkan dari distribusi beta (yang merupakan poster adalah) adalah . Jadi ketika Anda mulai, asumsi Anda dengan = 1 dan αβ1αα+βαβ= 1 adalah bahwa proporsi orang kidal di dunia adalah . Sekarang Anda telah mengumpulkan data yang memiliki 2 kidal dari 18. Anda telah menghitung posterior. (masih beta) Nilai dan sekarang berbeda, mengubah ide Anda tentang proporsi orang kidal vs orang kanan. bagaimana itu berubah? αβ12αβ

Eric Peterson
sumber
1

Pada bagian pertama dari pertanyaan Anda, ia meminta Anda untuk menentukan sebelum yang cocok untuk "r". Dengan data binomial di tangan akan lebih bijaksana untuk memilih distribusi beta. Karena kemudian posterior akan menjadi beta. Ditribusi Uniform menjadi kasus khusus beta, Anda dapat memilih sebelum "r" distribusi Uniform memungkinkan setiap nilai yang mungkin dari "r" sama-sama memungkinkan.

Pada bagian kedua Anda telah memberikan informasi mengenai distribusi sebelumnya "r".

Dengan ini di tangan @ COOLSerdash jawaban akan memberi Anda arahan yang tepat.

Terima kasih telah mengirimkan pertanyaan ini dan COOLSerdash karena memberikan jawaban yang tepat.

Nilupa Rupasinghe
sumber