Pemodelan hirarki Bayesian tingkat kejadian

8

Buku Kevin Murphy membahas masalah Hierarchical Bayesian klasik (awalnya dibahas dalam Johnson and Albert, 1999, p24):

Misalkan kita mencoba memperkirakan tingkat kanker di Nkota. Di setiap kota, kami mencicipi sejumlah individuNi dan mengukur jumlah penderita kanker xiBin(Ni,θi)dimana θi adalah tingkat kanker sejati di kota.

Kami ingin memperkirakan θiSementara memungkinkan kota-kota miskin data untuk meminjam kekuatan statistik dari kota-kota kaya data.

Untuk melakukannya, ia menjadi model θiBeta(a,b) sehingga semua kota berbagi sebelumnya yang sama, sehingga model akhir terlihat sebagai berikut:

p(D,θ,η|N)=p(η)i=1NBin(xi|Ni,θi)Beta(θi|η)

dimana η=(a,b).

Bagian penting tentang model ini tentu saja (saya kutip), "yang kami simpulkan η=(a,b) dari data, karena jika kita hanya menjepitnya ke konstanta, the θi akan mandiri secara kondisional, dan tidak akan ada aliran informasi di antara mereka ".


Saya mencoba model ini di PyMC , tetapi sejauh yang saya mengerti, saya perlu terlebih dahulua dan b (Saya percaya ini p(η)atas). Apa yang akan menjadi satu hal yang baik sebelum model ini?

Dalam kasus ini membantu, kode, seperti yang saya miliki sekarang adalah:

bins = dict()
ps   = dict()
for i in range(N_cities):
    ps[i]   = pm.Beta("p_{}".format(i), alpha=a, beta=b)
    bins[i] = pm.Binomial('bin_{}'.format(i), p=ps[i],n=N_trials[i],  value=N_yes[i], observed=True)

mcmc = pm.MCMC([bins, ps])

di mana saya percaya saya membutuhkan prior untuk adan b. Bagaimana saya harus memilih satu?

Amelio Vazquez-Reina
sumber

Jawaban:

9

Masalah serupa didiskusikan dalam Gelman, Bayesian Data Analysis , (edisi ke-2, hal. 128; edisi ke-3 hal. 110). Gelman menyarankan sebelumnyap(a,b)(a+b)5/2, yang secara efektif membatasi "ukuran sampel sebelumnya" a+b, dan oleh karena itu beta hyperprior tidak mungkin sangat informatif sendiri. (Sebagai kuantitasa+btumbuh, varian dari distribusi beta menyusut; dalam hal ini, varian sebelumnya yang lebih kecil membatasi "bobot" dari data yang diamati di posterior.) Selain itu, prior ini tidak menetapkan apakaha>b, atau sebaliknya, distribusi pasangan yang sesuai (a,b) disimpulkan dari semua data bersama, seperti yang Anda inginkan dalam masalah ini.

Gelman juga menyarankan reparameterisasi model dalam hal logit dari rata-rata θdan "ukuran sampel" sebelumnya. Jadi alih-alih melakukan inferensi tentang(a,b) secara langsung, masalahnya adalah tentang kesimpulan pada jumlah yang diubah logit(aa+b) dan log(a+b). Ini mengakui nilai-nilai yang ditransformasikan sebelumnya pada bidang nyata, daripada nilai-nilai sebelumnya yang tidak diubah yang harus benar-benar positif. Juga, ini mencapai kepadatan posterior yang lebih menyebar ketika diplot. Ini membuat grafik yang menyertainya lebih terbaca, yang menurut saya bermanfaat.

Sycorax berkata Reinstate Monica
sumber
1
Terima kasih @ user777. Sayangnya saya tidak dapat menggunakan prior multi-variate saat ini, jadi saya meninggalkan pertanyaan tindak lanjut di sini
Amelio Vazquez-Reina