Distribusi sebelumnya yang lemah dan informatif untuk parameter skala

21

Saya telah menggunakan distribusi log normal sebagai distribusi sebelumnya untuk parameter skala (untuk distribusi normal, distribusi t, dll.) Ketika saya memiliki gagasan kasar tentang apa skala seharusnya, tetapi ingin berbuat salah di sisi mengatakan saya tidak tahu banyak tentang itu. Saya menggunakannya karena penggunaan itu masuk akal bagi saya, tetapi saya belum melihat orang lain menggunakannya. Apakah ada bahaya tersembunyi untuk ini?

John Salvatier
sumber
1
Normalnya memiliki prior konjugasi: en.wikipedia.org/wiki/Normal-gamma_distribution . Anda mungkin menemukan ini jauh lebih mudah digunakan.
whuber
Menarik. Saya melakukan hal-hal numerik, apakah ada keuntungan untuk distribusi ini selain dari kesesuaian?
John Salvatier
5
Tidak benar-benar daerah saya tetapi ini 'mungkin' relevan? Gelman A. Distribusi sebelumnya untuk parameter varians dalam model hierarkis. Analisis Bayesian 2006; 1: 515–533. dx.doi.org/10.1214/06-BA117A
onestop
Saya telah menemukan ini Scaled-Beta 2 distribusi yang diusulkan oleh Pérez dan Pericchi. 2
Konjugasi prior untuk distribusi tertentu seperti normal hanyalah prior yang mengarah ke distribusi itu sebagai distribusi posterior yang diberikan seperangkat data. Jika Anda menggunakan konjugasi sebelum Anda tidak perlu repot-repot melakukan integrasi untuk menghitung posterior. Itu membuat hal-hal nyaman tetapi hari ini MCMC membuatnya jauh lebih mudah untuk menggunakan berbagai kemungkinan prior.
Michael R. Chernick

Jawaban:

20

Saya akan merekomendasikan menggunakan "Distribusi beta dari jenis kedua" ( singkatnya Beta 2 ) untuk distribusi yang agak informatif , dan untuk menggunakan distribusi gamma inversi konjugat jika Anda memiliki keyakinan kuat sebelumnya. Alasan saya mengatakan ini adalah bahwa konjugat prior tidak kuat dalam arti bahwa, jika sebelum dan data konflik, prior memiliki pengaruh tidak terbatas pada distribusi posterior. Perilaku semacam itu adalah apa yang saya sebut "dogmatis", dan tidak dibenarkan oleh informasi sebelumnya yang ringan .

Properti yang menentukan ketahanan adalah perilaku ekor dari kemungkinan sebelumnya dan kemungkinan. Artikel yang sangat bagus menguraikan rincian teknis di sini . Misalnya, kemungkinan dapat dipilih (mengatakan t-distribusi) seperti itu sebagai sebuah pengamatan (yaitu menjadi sewenang-wenang besar) itu dibuang dari analisis parameter lokasi (banyak cara yang sama bahwa Anda akan intuitif lakukan dengan pengamatan seperti itu). Tingkat "membuang" tergantung pada seberapa berat ekor distribusi.yi

Beberapa slide yang menunjukkan aplikasi dalam konteks pemodelan hierarkis dapat ditemukan di sini (menunjukkan bentuk matematika dari distribusi Beta 2 ), dengan makalah di sini .

Jika Anda tidak berada dalam konteks pemodelan hierarkis, maka saya akan menyarankan membandingkan posterior (atau hasil apa pun yang Anda buat) tetapi gunakan Jeffrey sebelum parameter skala, yang diberikan oleh . Ini dapat dibuat sebagai bataskepadatanBeta2karena kedua parameternya menyatu menjadi nol. Untuk perkiraan Anda bisa menggunakan nilai kecil. Tetapi saya akan mencoba untuk menyelesaikan solusi secaraanalitisjika memungkinkan (dan jika bukan solusi analitik yang lengkap, dapatkan solusi analitis sejauh mungkin), karena Anda tidak hanya akan menghemat waktu komputasi, tetapi Anda juga juga cenderungmemahamiapa yang terjadi dalam model Anda dengan lebih baik.p(σ)1σ

Alternatif selanjutnya adalah menentukan informasi Anda sebelumnya dalam bentuk kendala (rata-rata sama dengan , varians sama dengan V , IQR sama dengan I Q R , dll. Dengan nilai M , V , I Q R yang ditentukan sendiri), dan kemudian gunakan distribusi entropi maksimum (cari karya apa pun oleh Edwin Jaynes atau Larry Bretthorst untuk penjelasan yang baik tentang apa Entropi Maksimum itu dan apa yang bukan) sehubungan dengan "ukuran invarian" Jeffreys ' m ( σ ) = 1MVIQRM,V,IQR . m(σ)=1σ

MaxEnt adalah versi "Rolls Royce", sedangkan Beta 2 lebih merupakan versi "sedan". Alasan untuk ini adalah bahwa distribusi MaxEnt "mengasumsikan paling sedikit" tunduk pada kendala yang Anda masukkan ke dalamnya (misalnya, tidak ada kendala berarti Anda baru saja mendapatkan Jeffrey sebelumnya), sedangkan distribusi Beta 2 mungkin berisi beberapa fitur "tersembunyi" yang mungkin atau mungkin tidak diinginkan dalam kasus khusus Anda (misalnya, jika informasi sebelumnya lebih dapat diandalkan daripada data, maka Beta 2 buruk).

Properti bagus lain dari distribusi MAXENT adalah bahwa jika tidak ada kendala yang tidak ditentukan beroperasi dalam mekanisme pembangkit Data maka distribusi MAXENT adalah sangat paling mungkin distribusi yang Anda akan melihat (kita berbicara peluang cara di atas miliaran dan triliunan untuk satu). Oleh karena itu, jika distribusi yang Anda lihat bukan yang MaxEnt, maka ada kemungkinan kendala tambahan yang Anda belum tentukan beroperasi pada proses yang sebenarnya, dan nilai-nilai yang diamati dapat memberikan petunjuk tentang apa yang mungkin menjadi kendala itu.

probabilityislogic
sumber
@probabilityislogic Jawaban yang bagus. Apakah Anda tahu di mana saya dapat menemukan makalah yang Anda sebutkan di paragraf ketiga? Tautan tidak berfungsi.
1
salah satu yang berfungsi untuk kertas ada di sini . Itu di situs konferensi "obyektif bayes 09" (pertemuan Valencia). Saya tidak berpikir slide akan tersedia lagi, karena situs web untuk konferensi telah diturunkan ... :( Sayang, itu adalah set slide yang bagus. Sebelumnya, penunggang kuda itu terlihat menarik di tautan yang Anda berikan.
probabilityislogic
Beta2
@Prastrastator Apakah saya berhak berasumsi bahwa Anda hanya menginginkan prior yang tepat? Anda tidak mengatakannya, tetapi jika Anda mengizinkan prior yang tidak tepat, prior Jeffrey yang sudah disebutkan akan berhasil dan saya bisa mengutip teori probabilitas Jeffreys, buku-buku karya Dennis Lindley, atau ensiklopedia statistik. Cara permintaan seseorang dapat memeriksa menggunakan Google untuk menemukan jawabannya dan jika tidak dapat ditemukan, mungkin tidak ada dalam literatur di luar yang telah Anda excleded.
Michael R. Chernick
@MichaelChernick Ya, Anda benar, saya hanya tertarik pada prioritas yang tepat. Alasan untuk ini adalah bahwa untuk prior yang tepat (1) keberadaan posterior tidak terbatas pada model tertentu dan (2) saya ingin memeriksa apakah saya tidak kehilangan proposal menarik lainnya. Saya setuju dengan Anda bahwa sepertinya prior Gelman, Pericchi, dan Gamma adalah yang paling populer dalam literatur, tetapi saya juga mencatat bahwa ada kecenderungan dalam mengajukan prior tailed tailed untuk menghasilkan kesimpulan yang 'kuat'.
13

Makalah berikut oleh Daniels membandingkan berbagai prior penyusutan untuk varians. Ini adalah prior priors tetapi saya tidak yakin berapa banyak yang bisa disebut non-informatif jika ada. Tapi, dia juga memberikan daftar prior non-informative (tidak semuanya layak). Di bawah ini adalah referensi.

MJ Daniels (1999), A sebelum untuk varian dalam model hirarkis , Kanada J. Stat. , vol. 27, tidak. 3, hlm. 567–578.

Priors

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Makalah lain yang lebih baru dalam nada terkait adalah sebagai berikut.

A. Gelman (2006), Distribusi sebelumnya untuk parameter varians dalam model hirarkis , Analisis Bayesian , vol. 1, tidak. 3, hlm. 515-533.

Michael R. Chernick
sumber
2
(+1) Ini adalah temuan yang bagus. Saya telah menambahkan tautan stabil ke kertas Daniels serta referensi lain yang sepertinya melengkapi itu.
kardinal
4

(Pertanyaannya sudah basi, tetapi masalahnya tidak)

Secara pribadi, saya pikir intuisi Anda masuk akal. Dengan kata lain, jika Anda tidak memerlukan kerapian matematis konjugasi, maka distribusi apa pun yang akan Anda gunakan untuk parameter lokasi, Anda harus menggunakan yang sama untuk log parameter skala. Jadi, apa yang Anda katakan adalah: gunakan yang setara dengan sebelumnya yang normal.

Apakah Anda benar-benar menggunakan prior sebelum untuk parameter lokasi? Kebanyakan orang akan mengatakan bahwa, kecuali Anda membuat varians yang besar, itu mungkin agak "terlalu dogmatis", karena alasan yang dijelaskan dalam jawaban lain di sini (pengaruh tak terbatas). Pengecualiannya adalah jika Anda melakukan bayes empiris; yaitu, menggunakan data Anda untuk memperkirakan parameter sebelumnya.

Jika Anda ingin "kurang informatif", Anda mungkin akan memilih distribusi dengan ekor yang lebih gemuk; kandidat yang jelas adalah distribusi. Nasehat terbaru Gelman tampaknya digunakan pada df of 3-7. (Perhatikan bahwa tautan juga mendukung saran saya bahwa Anda ingin melakukan hal yang sama untuk log skala yang akan Anda lakukan untuk lokasi) Jadi, alih-alih lognormal, Anda bisa menggunakan log-student-t. Untuk mencapai ini dalam standar, Anda dapat melakukan sesuatu seperti:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Namun, saya pikir jika kode di atas terlalu rumit untuk Anda, Anda mungkin bisa lolos dengan lognormal sebelumnya, dengan dua peringatan. Pertama, buat varians dari yang sebelumnya beberapa kali lebih lebar dari perkiraan kasar Anda tentang bagaimana "Anda tidak yakin"; Anda menginginkan informasi sebelumnya yang lemah, bukan informasi yang sangat informatif. Dan kedua, setelah Anda cocok dengan model Anda, periksa median posterior parameter, dan pastikan log itu tidak terlalu jauh dari pusat lognormal. "Tidak terlalu jauh" mungkin berarti: kurang dari dua standar deviasi, dan lebih disukai tidak lebih dari satu SD.

Jameson Quinn
sumber
2

Untuk parameter skala model hirarkis, saya sebagian besar menggunakan saran Andrew Gelman untuk menggunakan distribusi t yang terlipat dan noncentral. Ini bekerja cukup baik untuk saya.

John Salvatier
sumber