Mengapa ada rekomendasi yang menentang penggunaan Jeffreys atau prior berdasarkan entropi untuk MCMC sampler?

11

Di halaman wiki mereka , pengembang status Stan:

Beberapa prinsip yang tidak kita sukai: invarian, Jeffreys, entropi

Sebagai gantinya, saya melihat banyak rekomendasi distribusi normal. Sejauh ini saya menggunakan metode Bayesian yang tidak bergantung pada pengambilan sampel, dan agak senang telah memahami mengapa adalah pilihan yang baik untuk kemungkinan binomial.θBeta(α=12,β=12)

Wirrbel
sumber
1
Komentar umum: Dokumentasi perangkat lunak tidak selalu merekapitulasi argumen statistik untuk apa yang dilakukan dan tidak dilakukan oleh perangkat lunak. Itu berlaku untuk sebagian besar paket R yang telah saya lihat dan saya tidak terkejut mendengar hal yang sama dari Stan. Andrew Gelman, jelas, adalah seorang penulis yang produktif.
Nick Cox
1
Komentar generik lebih lanjut: Saya tidak menemukan pertanyaan semacam ini sangat memuaskan, sebagian karena ini tentang individu tertentu. Jika penulis langsung tidak menjelaskan di suatu tempat, dan jelas-jelas tidak aktif di sini, maka kirim email kepada mereka untuk bertanya. Lebih memuaskan untuk bertanya secara abstrak tentang manfaat relatif dari berbagai pendekatan. Terkadang adil untuk mengatakan bahwa Anda selalu dapat menggunakan perangkat lunak yang berbeda jika Anda menemukan sesuatu yang hilang, termasuk menulis sendiri. Non-pengungkapan: tidak pernah menggunakan Stan.
Nick Cox
@NickCox Saya tidak berpikir pertanyaan ini akan mendapat manfaat dari anonimisasi, karena (1) konteks dari perangkat lunak samling adalah penting (2) kesan saya adalah bahwa penolakan terhadap Jeffreys priors cukup tidak biasa sehingga perlu untuk ditunjukkan. bahwa sumber terkenal membuat klaim itu. (3) Saya pikir itu tidak konfrontatif dengan mengutip seseorang dalam sebuah pertanyaan.
wirrbel
1
Andy menulis "Beberapa prinsip yang tidak kita sukai: invarian, Jeffreys, entropy" tetapi untuk melihat mengapa Anda harus melihat dalam bukunya
Ben Goodrich
1
Juga, makalah ini berisi pemikiran terbaru tentang prior di antara tiga pengembang Stan.
Ben Goodrich

Jawaban:

13

Ini tentu saja merupakan kumpulan orang yang beragam dengan berbagai pendapat yang berkumpul dan menulis wiki. Saya meringkas saya tahu / mengerti dengan beberapa komentar:

  • Memilih prioritas Anda berdasarkan kenyamanan komputasi adalah alasan yang tidak memadai. Misalnya menggunakan Beta (1/2, 1/2) semata-mata karena memungkinkan pembaruan konjugat bukan ide yang baik. Tentu saja, setelah Anda menyimpulkan bahwa ia memiliki sifat yang baik untuk jenis masalah yang Anda kerjakan, itu bagus dan Anda mungkin juga membuat pilihan yang membuat implementasi mudah. Ada banyak contoh, di mana pilihan standar yang nyaman ternyata bermasalah (lihat Gamna (0,001, 0,001) sebelumnya yang memungkinkan pengambilan sampel Gibbs).

  • Dengan Stan - tidak seperti WinBUGS atau JAGS - tidak ada keuntungan khusus untuk (konjugasi) prior. Jadi Anda mungkin mengabaikan aspek komputasi. Tidak sepenuhnya, karena dengan prior tail yang sangat berat (atau prior yang tidak tepat) dan data yang tidak mengidentifikasi parameter dengan baik, Anda mengalami masalah (bukan benar-benar masalah Stan spesifik, tetapi Stan cukup baik dalam mengidentifikasi masalah ini dan memperingatkan pengguna bukannya dengan senang hati mengambil sampel).

  • Jeffreys dan data "informasi rendah" lainnya kadang-kadang bisa tidak tepat atau agak terlalu sulit dimengerti dalam dimensi tinggi (apalagi untuk menurunkannya) dan dengan data yang jarang. Mungkin saja ini menyebabkan masalah terlalu sering bagi penulis untuk tidak pernah merasa nyaman dengan mereka. Setelah Anda mengerjakan sesuatu yang Anda pelajari lebih banyak dan merasa nyaman, maka pembalikan pendapat sesekali.

  • Dalam pengaturan data yang jarang, yang sebelumnya benar-benar penting dan jika Anda dapat menentukan bahwa nilai yang benar-benar tidak masuk akal untuk suatu parameter tidak masuk akal, ini sangat membantu. Ini memotivasi gagasan tentang informasi yang kurang informatif - bukan informasi yang benar-benar sepenuhnya informatif, tetapi yang dengan dukungan paling besar untuk nilai-nilai yang masuk akal.

  • Bahkan, Anda bisa bertanya-tanya mengapa orang mengganggu dengan informasi yang tidak informatif, jika kami memiliki banyak data yang mengidentifikasi parameter dengan sangat baik (orang hanya dapat menggunakan kemungkinan maksimum). Tentu saja, ada banyak alasan (menghindari patologi, mendapatkan "bentuk nyata" dari posterior dll), tetapi dalam situasi "banyak data" tampaknya tidak ada argumen nyata terhadap prior informasi yang lemah sebagai gantinya.

  • Barangkali sedikit aneh N (0, 1) adalah sebelum yang mengejutkan layak untuk koefisien dalam logistik, Poisson atau regresi Cox untuk banyak aplikasi. Misalnya itu sangat tentang distribusi efek pengobatan yang diamati di banyak uji klinis.
Björn
sumber
Terima kasih atas jawaban terincinya. Saya kira keheranan saya bukan tentang konjugasi (karena jika saya mengerti ini dengan benar, Jeffreys priors tidak perlu menjadi konjugat, mereka hanya perlu invarian di bawah reparametrization). Jadi saya akan benar-benar memahami saran terhadap prior konjugasi.
wirrbel
Saya pikir kekhawatiran dengan Jeffreys prior sebagian besar adalah beberapa prior dimensi tinggi yang mungkin bukan prior yang tepat dan mungkin memiliki pengaruh pada kesimpulan Anda yang tidak Anda pahami sepenuhnya. Saya pikir itu sebagian besar masalah dengan data jarang, meskipun mungkin seseorang dapat menunjukkan contoh dengan data tidak jarang, di mana beberapa masalah terjadi (saya tidak mengetahui adanya). Ditambah dengan Jeffreys sebelumnya dan berbagai pilihan "tidak informatif" lainnya, ada ketidaknyamanan sebenarnya harus mendapatkannya.
Björn
8

Mereka tidak memberikan pembenaran ilmiah / matematis untuk melakukan hal itu. Sebagian besar pengembang tidak bekerja pada jenis prior, dan mereka lebih suka menggunakan prior pragmatis / heuristik, seperti prior normal dengan varian besar (yang mungkin informatif dalam beberapa kasus). Namun, agak aneh bahwa mereka senang menggunakan prior PC, yang didasarkan pada Entropy (KL divergence), setelah mereka mulai mengerjakan topik ini.

GSebuahmmSebuah(0,001,0,001)

Sebelumnya
sumber
dapatkah Anda memberikan hyperlink / sumber informatif dengan klaim Gelman.
Jim
@ Jim Tentu saja, ini makalahnya: projecteuclid.org/euclid.ba/1340371048
Sebelum