Saya akan mencoba menggambarkan masalah yang dihadapi secara umum. Saya memodelkan pengamatan sebagai distribusi kategoris dengan parameter probabilitas vektor theta.
Kemudian, saya berasumsi vektor parameter theta mengikuti Dirichlet prior distribution dengan parameter .
Apakah mungkin juga untuk memaksakan distribusi hyperprior ke parameter ? Apakah itu harus menjadi distribusi multivariat seperti distribusi kategoris dan dirichlet? Menurut saya alfa selalu positif sehingga hyperprior gamma harus bekerja.
Tidak yakin apakah ada yang mencoba memasang model yang terlalu (mungkin) terlalu standar tetapi tampaknya masuk akal bagi saya untuk berpikir bahwa alfa tidak boleh diperbaiki tetapi lebih berasal dari distribusi gamma.
Silakan coba berikan saya beberapa referensi, wawasan tentang bagaimana saya bisa mencoba pendekatan semacam itu dalam praktik.
sumber
Jawaban:
Saya tidak berpikir ini adalah model "overparamaterized" sama sekali. Saya berpendapat bahwa dengan menempatkan prior pada paramaters Dirichlet, Anda menjadi kurang berkomitmen tentang hasil tertentu. Secara khusus, karena Anda mungkin tahu, untuk distribusi Dirichlet simetris (yaitu ) menetapkan α < 1 memberikan probabilitas lebih sebelum distribusi multinomial jarang, sedangkan α > 1 memberikan probabilitas lebih sebelum halus multinomial distribusi.α1= α2= . . . αK α < 1 α > 1
Dalam kasus di mana seseorang tidak memiliki harapan kuat untuk distribusi multinom yang jarang atau padat, menempatkan hyperprior di atas distribusi Dirichlet Anda memberi model Anda beberapa fleksibilitas tambahan untuk memilih di antara mereka.
Saya awalnya mendapat ide untuk melakukan ini dari makalah ini . Hyperprior yang mereka gunakan sedikit berbeda dari yang Anda sarankan. Mereka sampel vektor probabilitas dari balon dan kemudian skala dengan menggambar dari eksponensial (atau gamma). Jadi modelnya adalah
Dirichlet ekstra hanya untuk menghindari memaksakan simetri.
Saya juga melihat orang menggunakan hiper Gamma sebelumnya untuk Dirichlet dalam konteks model markov tersembunyi dengan distribusi emisi multinomial, tapi sepertinya saya tidak dapat menemukan referensi. Juga, sepertinya saya mengalami hiper serupa yang digunakan dalam model topik.
sumber
Untuk menunjukkan solusi untuk masalah hyperprior ini, saya menerapkan gamma hirarki-Dirichlet-multinomial di PyMC3. Gamma sebelum untuk Dirichlet ditentukan dan disampel per posting blog Ted Dunning .
Model yang saya terapkan dapat ditemukan di Intisari ini tetapi juga dijelaskan di bawah ini:
Ini adalah model hierarki (penggabungan) Bayesian untuk peringkat film. Setiap film dapat diberi peringkat pada skala dari nol hingga lima. Setiap film dinilai beberapa kali. Kami ingin menemukan distribusi peringkat yang diperhalus untuk setiap film.
Kita akan belajar distribusi tingkat atas sebelumnya (hyperprior) pada peringkat film dari data. Setiap film kemudian akan memiliki film sebelumnya yang dihaluskan oleh film tingkat atas ini sebelumnya. Cara lain untuk berpikir tentang hal ini adalah bahwa peringkat sebelum untuk setiap film akan menyusut menuju distribusi tingkat grup, atau dikumpulkan.
Jika sebuah film memiliki distribusi peringkat yang tidak lazim, pendekatan ini akan mengecilkan peringkat menjadi sesuatu yang lebih sesuai dengan apa yang diharapkan. Lebih lanjut, ini dipelajari sebelumnya dapat berguna untuk bootstrap film dengan beberapa peringkat untuk memungkinkan mereka menjadi bermakna dibandingkan dengan film dengan banyak peringkat.
Modelnya adalah sebagai berikut:
dimana:
sumber
Ini adalah pemodelan konjugat Bayesian langsung sebelumnya. Perpanjangan alami dari model Beta-Binomial. Sumber yang bagus untuk ini bisa dari buku . Dan Posterior juga Dirichlet dan karenanya mensimulasikan dari dirichlet akan memberikan ringkasan yang diperlukan
sumber