Saya telah menggunakan distribusi log normal sebagai distribusi sebelumnya untuk parameter skala (untuk distribusi normal, distribusi t, dll.) Ketika saya memiliki gagasan kasar tentang apa skala seharusnya, tetapi ingin berbuat salah di sisi mengatakan saya tidak tahu banyak tentang itu. Saya menggunakannya karena penggunaan itu masuk akal bagi saya, tetapi saya belum melihat orang lain menggunakannya. Apakah ada bahaya tersembunyi untuk ini?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
sumber
sumber
Jawaban:
Saya akan merekomendasikan menggunakan "Distribusi beta dari jenis kedua" ( singkatnya Beta 2 ) untuk distribusi yang agak informatif , dan untuk menggunakan distribusi gamma inversi konjugat jika Anda memiliki keyakinan kuat sebelumnya. Alasan saya mengatakan ini adalah bahwa konjugat prior tidak kuat dalam arti bahwa, jika sebelum dan data konflik, prior memiliki pengaruh tidak terbatas pada distribusi posterior. Perilaku semacam itu adalah apa yang saya sebut "dogmatis", dan tidak dibenarkan oleh informasi sebelumnya yang ringan .
Properti yang menentukan ketahanan adalah perilaku ekor dari kemungkinan sebelumnya dan kemungkinan. Artikel yang sangat bagus menguraikan rincian teknis di sini . Misalnya, kemungkinan dapat dipilih (mengatakan t-distribusi) seperti itu sebagai sebuah pengamatan (yaitu menjadi sewenang-wenang besar) itu dibuang dari analisis parameter lokasi (banyak cara yang sama bahwa Anda akan intuitif lakukan dengan pengamatan seperti itu). Tingkat "membuang" tergantung pada seberapa berat ekor distribusi.yi→∞
Beberapa slide yang menunjukkan aplikasi dalam konteks pemodelan hierarkis dapat ditemukan di sini (menunjukkan bentuk matematika dari distribusi Beta 2 ), dengan makalah di sini .
Jika Anda tidak berada dalam konteks pemodelan hierarkis, maka saya akan menyarankan membandingkan posterior (atau hasil apa pun yang Anda buat) tetapi gunakan Jeffrey sebelum parameter skala, yang diberikan oleh . Ini dapat dibuat sebagai bataskepadatanBeta2karena kedua parameternya menyatu menjadi nol. Untuk perkiraan Anda bisa menggunakan nilai kecil. Tetapi saya akan mencoba untuk menyelesaikan solusi secaraanalitisjika memungkinkan (dan jika bukan solusi analitik yang lengkap, dapatkan solusi analitis sejauh mungkin), karena Anda tidak hanya akan menghemat waktu komputasi, tetapi Anda juga juga cenderungmemahamiapa yang terjadi dalam model Anda dengan lebih baik.p(σ)∝1σ
Alternatif selanjutnya adalah menentukan informasi Anda sebelumnya dalam bentuk kendala (rata-rata sama dengan , varians sama dengan V , IQR sama dengan I Q R , dll. Dengan nilai M , V , I Q R yang ditentukan sendiri), dan kemudian gunakan distribusi entropi maksimum (cari karya apa pun oleh Edwin Jaynes atau Larry Bretthorst untuk penjelasan yang baik tentang apa Entropi Maksimum itu dan apa yang bukan) sehubungan dengan "ukuran invarian" Jeffreys ' m ( σ ) = 1M V IQR M,V,IQR . m(σ)=1σ
MaxEnt adalah versi "Rolls Royce", sedangkan Beta 2 lebih merupakan versi "sedan". Alasan untuk ini adalah bahwa distribusi MaxEnt "mengasumsikan paling sedikit" tunduk pada kendala yang Anda masukkan ke dalamnya (misalnya, tidak ada kendala berarti Anda baru saja mendapatkan Jeffrey sebelumnya), sedangkan distribusi Beta 2 mungkin berisi beberapa fitur "tersembunyi" yang mungkin atau mungkin tidak diinginkan dalam kasus khusus Anda (misalnya, jika informasi sebelumnya lebih dapat diandalkan daripada data, maka Beta 2 buruk).
Properti bagus lain dari distribusi MAXENT adalah bahwa jika tidak ada kendala yang tidak ditentukan beroperasi dalam mekanisme pembangkit Data maka distribusi MAXENT adalah sangat paling mungkin distribusi yang Anda akan melihat (kita berbicara peluang cara di atas miliaran dan triliunan untuk satu). Oleh karena itu, jika distribusi yang Anda lihat bukan yang MaxEnt, maka ada kemungkinan kendala tambahan yang Anda belum tentukan beroperasi pada proses yang sebenarnya, dan nilai-nilai yang diamati dapat memberikan petunjuk tentang apa yang mungkin menjadi kendala itu.
sumber
Makalah berikut oleh Daniels membandingkan berbagai prior penyusutan untuk varians. Ini adalah prior priors tetapi saya tidak yakin berapa banyak yang bisa disebut non-informatif jika ada. Tapi, dia juga memberikan daftar prior non-informative (tidak semuanya layak). Di bawah ini adalah referensi.
Priors
Makalah lain yang lebih baru dalam nada terkait adalah sebagai berikut.
sumber
(Pertanyaannya sudah basi, tetapi masalahnya tidak)
Secara pribadi, saya pikir intuisi Anda masuk akal. Dengan kata lain, jika Anda tidak memerlukan kerapian matematis konjugasi, maka distribusi apa pun yang akan Anda gunakan untuk parameter lokasi, Anda harus menggunakan yang sama untuk log parameter skala. Jadi, apa yang Anda katakan adalah: gunakan yang setara dengan sebelumnya yang normal.
Apakah Anda benar-benar menggunakan prior sebelum untuk parameter lokasi? Kebanyakan orang akan mengatakan bahwa, kecuali Anda membuat varians yang besar, itu mungkin agak "terlalu dogmatis", karena alasan yang dijelaskan dalam jawaban lain di sini (pengaruh tak terbatas). Pengecualiannya adalah jika Anda melakukan bayes empiris; yaitu, menggunakan data Anda untuk memperkirakan parameter sebelumnya.
Jika Anda ingin "kurang informatif", Anda mungkin akan memilih distribusi dengan ekor yang lebih gemuk; kandidat yang jelas adalah distribusi. Nasehat terbaru Gelman tampaknya digunakan pada df of 3-7. (Perhatikan bahwa tautan juga mendukung saran saya bahwa Anda ingin melakukan hal yang sama untuk log skala yang akan Anda lakukan untuk lokasi) Jadi, alih-alih lognormal, Anda bisa menggunakan log-student-t. Untuk mencapai ini dalam standar, Anda dapat melakukan sesuatu seperti:
Namun, saya pikir jika kode di atas terlalu rumit untuk Anda, Anda mungkin bisa lolos dengan lognormal sebelumnya, dengan dua peringatan. Pertama, buat varians dari yang sebelumnya beberapa kali lebih lebar dari perkiraan kasar Anda tentang bagaimana "Anda tidak yakin"; Anda menginginkan informasi sebelumnya yang lemah, bukan informasi yang sangat informatif. Dan kedua, setelah Anda cocok dengan model Anda, periksa median posterior parameter, dan pastikan log itu tidak terlalu jauh dari pusat lognormal. "Tidak terlalu jauh" mungkin berarti: kurang dari dua standar deviasi, dan lebih disukai tidak lebih dari satu SD.
sumber
Untuk parameter skala model hirarkis, saya sebagian besar menggunakan saran Andrew Gelman untuk menggunakan distribusi t yang terlipat dan noncentral. Ini bekerja cukup baik untuk saya.
sumber