Misalkan saya akan mendapatkan beberapa sampel dari distribusi binomial. Salah satu cara untuk memodelkan pengetahuan saya sebelumnya adalah dengan distribusi Beta dengan parameter dan . Seperti yang saya pahami, ini sama dengan melihat "kepala" kali dalam uji coba . Dengan demikian, jalan pintas yang bagus untuk melakukan inferensi Bayesian yang lengkap adalah dengan menggunakan sebagai rata-rata baru saya untuk probabilitas "head" setelah melihat head dalam percobaan .
Sekarang anggaplah saya memiliki lebih dari dua negara, jadi saya akan mendapatkan beberapa sampel dari distribusi multinomial. Misalkan saya ingin menggunakan distribusi Dirichlet dengan parameter sebagai sebelumnya. Sekali lagi sebagai jalan pintas, saya dapat menganggap ini sebagai pengetahuan sebelumnya tentang kemungkinan kejadian setara dengan , dan jika saya menyaksikan acara kali dalam percobaan posterior saya untuk menjadi .
Sekarang dalam kasus binomial, itu berhasil bahwa pengetahuan sebelumnya tentang "kepala" yang terjadi kali dalam percobaan setara dengan "ekor" yang terjadi kali dalam percobaan . Secara logis saya tidak percaya saya bisa memiliki pengetahuan yang lebih kuat tentang "kepala" kemungkinan daripada "ekor". Ini menjadi lebih menarik dengan lebih dari dua hasil. Jika saya mengatakan dadu 6 sisi, saya bisa membayangkan pengetahuan saya sebelumnya tentang sisi "1" setara dengan 10 yang dalam 50 percobaan dan pengetahuan awal saya tentang sisi "2" setara dengan 15 dua dalam 100 percobaan.
Jadi setelah semua pengantar itu, pertanyaan saya adalah bagaimana saya bisa memodelkan pengetahuan awal asimetris seperti dalam kasus multinomial? Sepertinya jika saya tidak hati-hati saya dapat dengan mudah mendapatkan hasil yang tidak logis karena probabilitas total / kemungkinan tidak menjumlahkan ke 1. Apakah ada beberapa cara saya masih dapat menggunakan pintasan Dirichlet, atau apakah saya perlu mengorbankan ini sama sekali dan menggunakan beberapa distribusi sebelumnya lainnya seluruhnya?
Mohon maafkan kebingungan yang disebabkan oleh potensi pelanggaran dalam notasi atau terminologi di atas.
sumber
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.
Apakah ada alasan khusus mengapa Anda tidak ingin menyatukan 'ukuran sampel yang setara' untuk " " dan " " (yaitu dan ) dengan menggunakan kelipatan yang paling tidak umum? Dalam hal ini dan .Jawaban:
Anda telah membingkai pertanyaan Anda dengan sangat baik.
Saya pikir apa yang Anda cari di sini adalah kasus pemodelan hierarkis. Dan Anda mungkin ingin memodelkan beberapa lapisan hierarki (saat ini Anda hanya berbicara tentang prior). Memiliki lapisan lain dari hiper-prior untuk parameter-hiper memungkinkan Anda memodelkan variabilitas tambahan dalam parameter-hiper (karena Anda khawatir tentang masalah variabilitas parameter-hiper). Ini juga membuat pemodelan Anda fleksibel dan kuat (mungkin lebih lambat).
Khususnya dalam kasus Anda, Anda dapat mengambil manfaat dengan memiliki prior untuk parameter distribusi Dirichlet (Beta adalah kasus khusus). Posting ini oleh Gelman berbicara tentang bagaimana memaksakan prior pada parameter distribusi Dirichlet. Dia juga mengutip makalahnya dalam jurnal toksikologi.
sumber