Dalam kelompok siswa, ada 2 dari 18 yang kidal. Temukan distribusi posterior siswa kidal dalam populasi dengan asumsi tidak informatif sebelumnya. Ringkas hasilnya. Menurut literatur 5-20% orang kidal. Pertimbangkan informasi ini di prior Anda dan hitung posterior baru.
Saya tahu distribusi beta harus digunakan di sini. Pertama, dengan nilai dan sebagai 1? Persamaan yang saya temukan dalam bahan untuk posterior adalah
N = 18 ,
Mengapa dalam persamaan itu? ( menunjukkan proporsi orang kidal). Tidak diketahui, jadi bagaimana bisa dalam persamaan ini? Bagi saya tampaknya konyol untuk menghitung diberikan dan menggunakannya dalam persamaan pemberian . Nah, dengan sampel hasilnya adalah . The harus saya menarik kesimpulan dari itu?
Persamaan yang memberikan nilai yang diharapkan dari diketahui dan bekerja lebih baik dan memberi saya yang terdengar benar. Persamaannya adalah dengan nilai ditugaskan untuk dan . Nilai apa yang harus saya berikan dan untuk memperhitungkan informasi sebelumnya?
Beberapa tips tentu akan sangat dihargai. Ceramah umum tentang distribusi sebelumnya dan posterior juga tidak akan merugikan (saya memiliki pemahaman yang samar-samar tentang apa itu tetapi hanya samar-samar). Ingatlah bahwa saya bukan ahli statistik yang sangat maju (sebenarnya saya adalah ilmuwan politik dari perdagangan utama saya) jadi matematika canggih mungkin akan terbang di atas kepalaku.
Jawaban:
Pertama-tama saya jelaskan apa itu konjugat sebelumnya . Saya kemudian akan menjelaskan analisis Bayesian menggunakan contoh spesifik Anda. Statistik Bayesian melibatkan langkah-langkah berikut:
Dasar dari semua statistik bayesian adalah teorema Bayes, yaitu
Dalam kasus Anda, kemungkinannya adalah binomial. Jika distribusi prior dan posterior berada dalam keluarga yang sama, prior dan posterior disebut distribusi konjugat . Distribusi beta adalah konjugat sebelumnya karena posterior juga merupakan distribusi beta. Kami mengatakan bahwa distribusi beta adalah keluarga konjugat untuk kemungkinan binomial. Analisis konjugasi mudah dilakukan tetapi jarang terjadi dalam masalah dunia nyata. Dalam kebanyakan kasus, distribusi posterior harus ditemukan secara numerik melalui MCMC (menggunakan Stan, WinBUGS, OpenBUGS, JAGS, PyMC atau beberapa program lain).
Jika distribusi probabilitas sebelumnya tidak berintegrasi ke 1, itu disebut prior tidak patut , jika itu berintegrasi ke 1 itu disebut prior yang tepat . Dalam kebanyakan kasus, prior yang tidak tepat tidak menimbulkan masalah besar untuk analisis Bayesian. Distribusi posterior harus tepat, yaitu posterior harus berintegrasi ke 1.
Aturan praktis ini mengikuti langsung dari sifat prosedur analisis Bayesian:
Tinjauan yang sangat baik tentang beberapa kemungkinan prior "informatif" dan "tidak informatif" untuk distribusi beta dapat ditemukan di posting ini .
Katakanlah beta Anda sebelumnya adalah mana adalah proporsi orang kidal. Untuk menentukan parameter sebelumnya dan , penting untuk mengetahui mean dan varians dari distribusi beta (misalnya, jika Anda ingin sebelum Anda memiliki mean dan varians tertentu). Maksudnya adalah . Jadi, setiap kali , rerata adalah . Varian dari distribusi beta adalah . Sekarang, hal yang mudah adalah Anda dapat memikirkan danBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β seperti data sebelumnya yang diamati (pseudo-), yaitu kidal dan kanan dari sampel (pseudo-) ukuran . The distribusi seragam (semua nilai-nilai sama-sama mungkin) dan adalah setara setelah mengamati dua orang keluar yang satu kidal dan satu lagi kidal.α β neq=α+β Beta(πLH|α=1,β=1) πLH
Distribusi beta posterior hanyalah mana adalah ukuran sampel dan adalah jumlah orang kidal dalam sampel. Posterior rata karena itu . Jadi untuk menemukan parameter distribusi beta posterior, kita cukup menambahkan handers kidal ke dan handers kanan ke . Varians posterior adalahBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Perhatikan bahwa prior yang sangat informatif juga mengarah ke varian yang lebih kecil dari distribusi posterior (grafik di bawah menggambarkan poin dengan baik).
Dalam kasus Anda, dan dan prior Anda adalah seragam yang tidak informatif, jadi . Distribusi posterior Anda karena itu . Rata-rata posterior adalah . Berikut ini adalah grafik yang menunjukkan sebelumnya, kemungkinan data dan posteriorz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Anda melihat bahwa karena distribusi sebelumnya tidak informatif, distribusi posterior Anda sepenuhnya digerakkan oleh data. Juga diplot adalah interval kepadatan tertinggi (HDI) untuk distribusi posterior. Bayangkan bahwa Anda meletakkan distribusi posterior Anda dalam baskom 2D dan mulai mengisi air hingga 95% dari distribusi berada di atas garis air. Titik-titik di mana garis air bersinggungan dengan distribusi posterior membentuk 95% -HDI. Setiap titik di dalam HDI memiliki probabilitas lebih tinggi daripada titik di luarnya. Juga, HDI selalu menyertakan puncak distribusi posterior (yaitu mode). HDI berbeda dari interval kredibel 95% yang sama di mana 2,5% dari setiap ekor posterior dikeluarkan (lihat di sini ).
Untuk tugas kedua Anda, Anda diminta untuk memasukkan informasi bahwa 5-20% dari populasi adalah orang kidal. Ada beberapa cara untuk melakukan itu. Cara termudah adalah dengan mengatakan bahwa distribusi beta sebelumnya harus memiliki rata-rata yang merupakan rata-rata dan . Tetapi bagaimana cara memilih dan dari distribusi beta sebelumnya? Pertama, Anda ingin rata-rata distribusi Anda sebelumnya menjadi dari sampel semu ukuran sampel setara . Secara lebih umum, jika Anda ingin sebelum Anda memiliki rata-rata dengan ukuran sampel semu , sesuai0.125 0.05 0.2 α β 0.125 neq m neq α dan nilai adalah: dan . Yang harus Anda lakukan sekarang adalah memilih ukuran sampel semu yang menentukan seberapa yakin Anda tentang informasi sebelumnya. Katakanlah Anda sangat yakin tentang informasi Anda sebelumnya dan set . Parameter distribusi sebelumnya Anda di sana dan . Distribusi posterior adalah dengan rata-rata sekitar yang secara praktis sama dengan rata-rata sebelumnya dariβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 . Informasi sebelumnya mendominasi posterior (lihat grafik berikut):
Jika Anda kurang yakin tentang informasi sebelumnya, Anda dapat mengatur sampel semu Anda, misalnya, , yang menghasilkan dan untuk distribusi beta Anda sebelumnya. Distribusi posterior adalah dengan rata-rata sekitar . Rata-rata posterior sekarang dekat rata-rata data Anda ( ) karena data melebihi sebelumnya. Berikut adalah grafik yang menunjukkan situasi:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Metode yang lebih maju dalam menggabungkan informasi sebelumnya adalah dengan mengatakan bahwa kuantil dari distribusi beta Anda sebelumnya harus sekitar dan kuantil harus sekitar . Ini sama dengan mengatakan bahwa Anda 95% yakin bahwa proporsi orang kidal dalam populasi terletak antara 5% dan 20%. Fungsi dalam paket R menghitung nilai dan sesuai dari distribusi beta yang sesuai dengan kuantil tersebut. Kodenya adalah0.025 0.05 0.975 0.2 α βα β
beta.select
LearnBayes
Tampaknya distribusi beta dengan parameter dan memiliki properti yang diinginkan. Rata-rata sebelumnya adalah yang mendekati rata-rata data Anda ( ). Sekali lagi, distribusi sebelumnya ini menggabungkan informasi sampel-pseudo dengan ukuran sampel setara sekitar . Distribusi posterior adalah dengan rata-rata yang sebanding dengan rata-rata analisis sebelumnya menggunakan sangat informatif sebelumnya sebelumnya. Berikut adalah grafik yang sesuai:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Lihat juga referensi ini untuk tinjauan singkat tapi bagus tentang penalaran Bayesian dan analisis sederhana. Pengantar yang lebih lama untuk analisis konjugat, terutama untuk data binomial dapat ditemukan di sini . Pengantar umum tentang pemikiran Bayesian dapat ditemukan di sini . Lebih banyak slide mengenai aspek statistik Baysian ada di sini .
sumber
Distribusi beta dengan = 1 dan = 1 sama dengan distribusi seragam. Jadi faktanya seragam. Anda mencoba mencari informasi tentang parameter distribusi (dalam hal ini, persentase orang kidal dalam sekelompok orang). Status rumus Bayes:βα β
yang Anda tunjukkan sebanding dengan:
α ( Y 1 , . . . , N | r ) * P ( r )P(r|Y1,...,n) ∝ (Y1,...,n|r)∗P(r)
Jadi pada dasarnya Anda mulai dengan keyakinan Anda sebelumnya tentang proporsi hander kiri dalam grup (P (r), yang Anda gunakan dist seragam untuk), kemudian mempertimbangkan data yang Anda kumpulkan untuk menginformasikan prior Anda (binomial dalam hal ini, baik Anda tangan kanan atau kiri, jadi ). Distribusi binomial memiliki konjugat beta sebelumnya, yang berarti bahwa distribusi posteriorP ( r | Y 1 , . . . N ) αP(Y1,...,n|r) P(r|Y1,...n) , distribusi paramter setelah mempertimbangkan data dalam keluarga yang sama dengan sebelumnya. r di sini tidak diketahui pada akhirnya. (dan terus terang itu bukan sebelum mengumpulkan data. Kami punya ide yang cukup bagus tentang proporsi orang kidal di masyarakat.) Anda sudah mendapatkan distribusi sebelumnya (asumsi r) dan Anda telah mengumpulkan data dan menggabungkan keduanya. Posterior adalah asumsi baru Anda tentang distribusi hander kiri setelah mempertimbangkan data. Jadi Anda mengambil kemungkinan data, dan mengalikannya dengan seragam. Nilai yang diharapkan dari distribusi beta (yang merupakan poster adalah) adalah . Jadi ketika Anda mulai, asumsi Anda dengan = 1 dan αβ1αα+β α β = 1 adalah bahwa proporsi orang kidal di dunia adalah . Sekarang Anda telah mengumpulkan data yang memiliki 2 kidal dari 18. Anda telah menghitung posterior. (masih beta) Nilai dan sekarang berbeda, mengubah ide Anda tentang proporsi orang kidal vs orang kanan. bagaimana itu berubah? αβ12 α β
sumber
Pada bagian pertama dari pertanyaan Anda, ia meminta Anda untuk menentukan sebelum yang cocok untuk "r". Dengan data binomial di tangan akan lebih bijaksana untuk memilih distribusi beta. Karena kemudian posterior akan menjadi beta. Ditribusi Uniform menjadi kasus khusus beta, Anda dapat memilih sebelum "r" distribusi Uniform memungkinkan setiap nilai yang mungkin dari "r" sama-sama memungkinkan.
Pada bagian kedua Anda telah memberikan informasi mengenai distribusi sebelumnya "r".
Dengan ini di tangan @ COOLSerdash jawaban akan memberi Anda arahan yang tepat.
Terima kasih telah mengirimkan pertanyaan ini dan COOLSerdash karena memberikan jawaban yang tepat.
sumber