Dapatkah seseorang menjelaskan mengapa integral dalam kerapatan posterior mungkin tidak "dapat ditelusuri secara analitik" jika sebelumnya yang kita pilih adalah non-konjugat?
Pertimbangkan model Binomia: tidak mungkin menemukan ekspresi analitik untuk integral untuk setiap sebelumnya . ∫10θx(1−θ)n−xπ(θ)dθπ(θ)
Zen
4
@ Zen yang mungkin perlu diperluas (hanya sedikit; Anda pada dasarnya cukup menutupi masalah mendasar) menjadi jawaban.
Glen_b -Reinstate Monica
Anda 100% benar, @Glen_b, tapi saya tidak yakin bagaimana kami harus menjelaskan ini. Intinya adalah jika posterior dari keluarga yang sama kita tidak melakukan integrasi sama sekali. Kami hanya mengidentifikasi "kernel" kepadatan. Itu adalah sesuatu yang menjadi jelas ketika kita melakukannya berkali-kali.
Zen
Jangan khawatir, Zen, saya akan membahayakan jawaban.
Glen_b -Reinstate Monica
Jawaban:
13
Konjugasi itu baik karena itu berarti bahwa jika Anda dapat berurusan dengan pdf di awal, Anda harus dapat melakukan hal yang sama dengan posterior (karena mereka memiliki bentuk yang sama) - tetapi tentu saja kadang-kadang Anda menginginkan sebelumnya yang tidak konjugasi.
Bagaimana kemudahan penelusuran integral muncul dalam perhitungan Bayesian yang praktis?
Bayangkan kita ingin membuat beberapa kesimpulan tentang parameter :θ
p ( θ | x ) ∝ p ( x | θ ) ⋅ p ( θ )
di mana istilah pertama di sebelah kanan adalah kemungkinan dan istilah kedua adalah di atas. Masalahnya pada dasarnya adalah untuk mengevaluasi konstanta proporsionalitas yang diperlukan untuk mendapatkan kepadatan di sebelah kanan; dan kemudian Anda mungkin ingin dapat melakukan berbagai hal dengan itu (misalnya menggambar; menemukan statistik ringkasan - artinya, atau modenya, atau beberapa kuantil; bahkan mungkin sampel darinya). Bagaimanapun, dapat menemukan bahwa integral dengan cara tertentu akan berguna, dan mungkin hal yang paling alami dan jelas untuk dilakukan adalah upaya untuk menemukannya 'secara aljabar' - yaitu, menggunakan tas trik yang biasa untuk mengevaluasi integral.
Biasanya, apa yang kita maksud dengan intractable adalah 'analically intractable', tetapi kadang-kadang digunakan sedikit lebih longgar. Dalam beberapa hal, "sebagian besar" integral adalah tidak dapat dipecahkan, untuk berbagai nilai 'tidak dapat dipecahkan' (gulir ke bawah ke diskusi tentang integral).
Contoh
Seperti Zen tunjukkan untuk contoh sederhana dari model binomial, tidak ada jaminan Anda dapat melakukan integrasi untuk posterior pada parameter secara aljabar.
Berikut contoh berbeda (versi sederhana dari sesuatu yang saya lihat muncul):
Pertimbangkan posterior Bayesian untuk varian, dari distribusi normal dengan mean dikenal . Konjugat prior adalah invers gamma, tetapi bagaimana jika kita menginginkan prior lognormal?σ2μ
Maka kita akan secara efektif memiliki integral yang integrand bentuknya
p(σ2|μ,y)∝p(y|μ,σ2)⋅p(σ2)
di mana lagi istilah pertama di sebelah kanan adalah kemungkinan dan yang kedua adalah sebelumnya.∝
Kemungkinan itu berbentuk:
f(σ2;α,β)=βαΓ(α)(σ2)−α−1exp(−βσ2)
di mana dan adalah fungsi sederhana dari data, , ukuran sampel, , dan , dan bentuk sebelumnya adalah:αβynμ
f(σ2;θ,τ)=1σ2τ2π−−√e−(lnσ2−θ)22τ2
... dan produk dari mereka sama sekali tidak secara aljabar "baik" untuk dicoba. Sebagai contoh, Wolfram Alpha tidak dapat melakukan integral *, dan itu lebih cenderung untuk mendapatkan sesuatu seperti ini dalam waktu yang wajar daripada saya.
* (khusus, kita dapat menghapus konstanta dan menggabungkan istilah, dan menempatkan untuk untuk memasok untuk integand - dan integral yang tidak terbatas itulah yang tidak dapat dilakukan Wolfram Alpha. Mungkin ada cara untuk mendapatkannya - atau sesuatu yang lain - untuk melakukan integral yang pasti pada , meskipun.)xσ2x−α−2exp(−βx−(lnx−θ)22τ2)(0,∞)
Diskusi tentang beberapa pendekatan terhadap kepraktisan analitis
Jika bukan karena fakta bahwa orang-orang sering memilih analitik 'baik' (terutama ketika mengajar subjek, tetapi juga sering dalam masalah nyata), itu akan menjadi masalah yang muncul hampir setiap waktu. Itu bukan untuk mengatakan bahwa memilih prior yang bagus secara analitis itu salah - biasanya kita hanya memiliki pemahaman yang samar tentang informasi kami sebelumnya (saya jarang memiliki distribusi tertentu sebelumnya dalam pikiran, meskipun saya mungkin memiliki beberapa gagasan tentang kemungkinan atau kemungkinan nilai - saya mungkin memiliki rasa luas di mana saya ingin sebagian besar probabilitas pada saya sebelum menjadi, atau sangat kasar di mana rata-rata mungkin, misalnya - jika saya tidak tahu apa bentuk fungsional spesifik yang saya inginkan untuk saya sebelum dan konjugat sebelumnya dapat mencerminkan informasi yang ingin saya miliki di awal saya, yang mungkin sering menjadi pilihan yang cukup masuk akal).
Namun dalam arti praktis masih sangat mungkin untuk menangani masalah ini dalam beberapa cara. Kita dapat, misalnya, mendekati posterior ke berbagai tingkat akurasi. Berikut adalah beberapa contoh (tidak berarti lengkap): (i) dengan mendekati yang diinginkan sebelumnya dalam berbagai cara - mungkin dengan campuran konjugat atau prior trable - menghasilkan campuran yang sesuai untuk posterior, atau (ii) dengan integrasi numerik yang sesuai (yang dalam kasus univariat dapat bekerja dengan sangat baik), atau (iii) kita dapat mensimulasikan dari distribusi ini tanpa mengetahui bahwa terpisahkan - mungkin melalui penolakan pengambilan sampel , atau melalui Metropolis-Hastings jenis Markov Chain-Monte Carlo algoritme, selama kita masing-masing memiliki fungsi pembatas atau aproksimasi yang cocok).
Di masa lalu, pendekatan umum untuk masalah ini cenderung mencakup integrasi numerik (atau integrasi Monte Carlo dalam dimensi yang lebih tinggi), dan perkiraan Laplace . Sebenarnya ini masih digunakan pada banyak masalah, tetapi kami memiliki banyak alat lain.
Mengingat begitu banyak pekerjaan Bayesian dilakukan dengan menggunakan berbagai versi MCMC dan pendekatan pengambilan sampel terkait hari ini, traktabilitas analitis jauh lebih sedikit masalah daripada sebelumnya, bahkan dengan masalah dengan sejumlah besar parameter - saya telah melihat ketiga pendekatan yang saya sebutkan di atas digunakan dalam konteks itu; ini berarti kita cukup bebas untuk memilih hanya sebelum kita inginkan, berdasarkan seberapa baik itu mencerminkan pengetahuan kita sebelumnya, atau karena kemampuannya untuk mengatur inferensi - untuk kesesuaiannya untuk inferensi kita daripada kemudahan manipulasi aljabar. Jadi Anda lihat, misalnya, Andrew Gelman menganjurkan penggunaan setengah-Cauchy dan setengah-t priors pada parameter varians dalam model hirarkis, danPrimer Cauchy yang kurang informatif dalam regresi logistik (namun, makalah itu tidak menggunakan MCMC, tetapi lebih mencapai perkiraan inferensi melalui EM ditambah dengan kuadrat terkecil yang berulang secara iteratif reweighted untuk regresi logistik).
Jawaban:
Konjugasi itu baik karena itu berarti bahwa jika Anda dapat berurusan dengan pdf di awal, Anda harus dapat melakukan hal yang sama dengan posterior (karena mereka memiliki bentuk yang sama) - tetapi tentu saja kadang-kadang Anda menginginkan sebelumnya yang tidak konjugasi.
Bagaimana kemudahan penelusuran integral muncul dalam perhitungan Bayesian yang praktis?
Bayangkan kita ingin membuat beberapa kesimpulan tentang parameter :θ
di mana istilah pertama di sebelah kanan adalah kemungkinan dan istilah kedua adalah di atas. Masalahnya pada dasarnya adalah untuk mengevaluasi konstanta proporsionalitas yang diperlukan untuk mendapatkan kepadatan di sebelah kanan; dan kemudian Anda mungkin ingin dapat melakukan berbagai hal dengan itu (misalnya menggambar; menemukan statistik ringkasan - artinya, atau modenya, atau beberapa kuantil; bahkan mungkin sampel darinya). Bagaimanapun, dapat menemukan bahwa integral dengan cara tertentu akan berguna, dan mungkin hal yang paling alami dan jelas untuk dilakukan adalah upaya untuk menemukannya 'secara aljabar' - yaitu, menggunakan tas trik yang biasa untuk mengevaluasi integral.
Biasanya, apa yang kita maksud dengan intractable adalah 'analically intractable', tetapi kadang-kadang digunakan sedikit lebih longgar. Dalam beberapa hal, "sebagian besar" integral adalah tidak dapat dipecahkan, untuk berbagai nilai 'tidak dapat dipecahkan' (gulir ke bawah ke diskusi tentang integral).
Contoh
Seperti Zen tunjukkan untuk contoh sederhana dari model binomial, tidak ada jaminan Anda dapat melakukan integrasi untuk posterior pada parameter secara aljabar.
Berikut contoh berbeda (versi sederhana dari sesuatu yang saya lihat muncul):
Pertimbangkan posterior Bayesian untuk varian, dari distribusi normal dengan mean dikenal . Konjugat prior adalah invers gamma, tetapi bagaimana jika kita menginginkan prior lognormal?σ2 μ
Maka kita akan secara efektif memiliki integral yang integrand bentuknya
di mana lagi istilah pertama di sebelah kanan adalah kemungkinan dan yang kedua adalah sebelumnya.∝
Kemungkinan itu berbentuk:
di mana dan adalah fungsi sederhana dari data, , ukuran sampel, , dan , dan bentuk sebelumnya adalah:α β y n μ
... dan produk dari mereka sama sekali tidak secara aljabar "baik" untuk dicoba. Sebagai contoh, Wolfram Alpha tidak dapat melakukan integral *, dan itu lebih cenderung untuk mendapatkan sesuatu seperti ini dalam waktu yang wajar daripada saya.
* (khusus, kita dapat menghapus konstanta dan menggabungkan istilah, dan menempatkan untuk untuk memasok untuk integand - dan integral yang tidak terbatas itulah yang tidak dapat dilakukan Wolfram Alpha. Mungkin ada cara untuk mendapatkannya - atau sesuatu yang lain - untuk melakukan integral yang pasti pada , meskipun.)x σ2 x−α−2exp(−βx−(lnx−θ)22τ2) (0,∞)
Diskusi tentang beberapa pendekatan terhadap kepraktisan analitis
Jika bukan karena fakta bahwa orang-orang sering memilih analitik 'baik' (terutama ketika mengajar subjek, tetapi juga sering dalam masalah nyata), itu akan menjadi masalah yang muncul hampir setiap waktu. Itu bukan untuk mengatakan bahwa memilih prior yang bagus secara analitis itu salah - biasanya kita hanya memiliki pemahaman yang samar tentang informasi kami sebelumnya (saya jarang memiliki distribusi tertentu sebelumnya dalam pikiran, meskipun saya mungkin memiliki beberapa gagasan tentang kemungkinan atau kemungkinan nilai - saya mungkin memiliki rasa luas di mana saya ingin sebagian besar probabilitas pada saya sebelum menjadi, atau sangat kasar di mana rata-rata mungkin, misalnya - jika saya tidak tahu apa bentuk fungsional spesifik yang saya inginkan untuk saya sebelum dan konjugat sebelumnya dapat mencerminkan informasi yang ingin saya miliki di awal saya, yang mungkin sering menjadi pilihan yang cukup masuk akal).
Namun dalam arti praktis masih sangat mungkin untuk menangani masalah ini dalam beberapa cara. Kita dapat, misalnya, mendekati posterior ke berbagai tingkat akurasi. Berikut adalah beberapa contoh (tidak berarti lengkap): (i) dengan mendekati yang diinginkan sebelumnya dalam berbagai cara - mungkin dengan campuran konjugat atau prior trable - menghasilkan campuran yang sesuai untuk posterior, atau (ii) dengan integrasi numerik yang sesuai (yang dalam kasus univariat dapat bekerja dengan sangat baik), atau (iii) kita dapat mensimulasikan dari distribusi ini tanpa mengetahui bahwa terpisahkan - mungkin melalui penolakan pengambilan sampel , atau melalui Metropolis-Hastings jenis Markov Chain-Monte Carlo algoritme, selama kita masing-masing memiliki fungsi pembatas atau aproksimasi yang cocok).
Di masa lalu, pendekatan umum untuk masalah ini cenderung mencakup integrasi numerik (atau integrasi Monte Carlo dalam dimensi yang lebih tinggi), dan perkiraan Laplace . Sebenarnya ini masih digunakan pada banyak masalah, tetapi kami memiliki banyak alat lain.
Mengingat begitu banyak pekerjaan Bayesian dilakukan dengan menggunakan berbagai versi MCMC dan pendekatan pengambilan sampel terkait hari ini, traktabilitas analitis jauh lebih sedikit masalah daripada sebelumnya, bahkan dengan masalah dengan sejumlah besar parameter - saya telah melihat ketiga pendekatan yang saya sebutkan di atas digunakan dalam konteks itu; ini berarti kita cukup bebas untuk memilih hanya sebelum kita inginkan, berdasarkan seberapa baik itu mencerminkan pengetahuan kita sebelumnya, atau karena kemampuannya untuk mengatur inferensi - untuk kesesuaiannya untuk inferensi kita daripada kemudahan manipulasi aljabar. Jadi Anda lihat, misalnya, Andrew Gelman menganjurkan penggunaan setengah-Cauchy dan setengah-t priors pada parameter varians dalam model hirarkis, danPrimer Cauchy yang kurang informatif dalam regresi logistik (namun, makalah itu tidak menggunakan MCMC, tetapi lebih mencapai perkiraan inferensi melalui EM ditambah dengan kuadrat terkecil yang berulang secara iteratif reweighted untuk regresi logistik).
sumber