Mengapa sebelum varian dianggap lemah?

21

Latar Belakang

Salah satu yang paling umum digunakan sebelum varian adalah invers-gamma dengan parameter (Gelman 2006) .α=0.001,β=0.001

Namun, distribusi ini memiliki 90% CI sekitar .[3×1019,]

library(pscl)
sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001))

[1] 3.362941e+19          Inf

Dari sini, saya menafsirkan bahwa memberikan probabilitas rendah bahwa varians akan sangat tinggi, dan probabilitas sangat rendah bahwa varians akan kurang dari 1 .IG(0.001,0.001)P(σ<1|α=0.001,β=0.001)=0.006

pigamma(1, 0.001, 0.001)
[1] 0.006312353

Pertanyaan

Apakah saya kehilangan sesuatu atau apakah ini benar-benar informasi yang informatif?

pembaruan untuk memperjelas, alasan saya mempertimbangkan ini 'informatif' adalah karena ia mengklaim sangat kuat bahwa varians sangat besar dan jauh melampaui skala hampir semua varian yang pernah diukur.

tindak lanjut akankah meta analisis sejumlah besar estimasi varians memberikan prioritas yang lebih masuk akal?


Referensi

Gelman 2006. Distribusi sebelumnya untuk parameter varians dalam model hierarkis . Analisis Bayesian 1 (3): 515–533

David LeBauer
sumber
1
Sebelumnya "benar" non-informasi bukan distribusi. Jadi tidak ada probabilitas sebelumnya seperti P (sigma <1).
Stéphane Laurent

Jawaban:

38

Menggunakan distribusi gamma terbalik, kita mendapatkan:

p(σ2|α,β)(σ2)α1exp(βσ2)

Anda dapat melihat dengan mudah bahwa jika dan maka gamma terbalik akan mendekati Jeffreys sebelumnya. Distribusi ini disebut "tidak informatif" karena merupakan perkiraan yang tepat untuk Jeffrey sebelumnyaβ0α0

p(σ2)1σ2

Sebagai contoh , yang tidak informatif untuk parameter skala, lihat halaman 18 di sini , karena sebelumnya ini adalah satu-satunya yang tetap berubah di bawah perubahan skala (perhatikan bahwa perkiraannya tidak invarian). Ini memiliki integral yang tidak terbatas yang menunjukkan bahwa tidak tepat jika kisaran termasuk atau . Tetapi kasus-kasus ini hanya masalah dalam matematika - bukan di dunia nyata. Jangan pernah benar-benar mengamati nilai tak terbatas untuk varian, dan jika varian yang diamati adalah nol, Anda memiliki data sempurna !. Untuk Anda dapat menetapkan batas bawah sama dengan dan batas atas sama dengan , dan distribusi Anda tepat.log(σ2)σ20L>0U<

Walaupun mungkin tampak aneh bahwa ini "tidak informatif" karena lebih suka varian kecil daripada besar, tetapi ini hanya dalam satu skala. Anda dapat menunjukkan bahwa memiliki distribusi seragam yang tidak tepat. Jadi ini sebelumnya tidak mendukung satu skala lebih dari yang lainlog(σ2)

Meskipun tidak terkait langsung dengan pertanyaan Anda, saya akan menyarankan distribusi non-informatif "lebih baik" dengan memilih batas atas dan bawah dan di Jeffreys sebelum daripada dan . Biasanya batas dapat diatur cukup mudah dengan sedikit pemikiran untuk apa sebenarnya berarti di dunia nyata. Jika itu adalah kesalahan dalam beberapa jenis kuantitas fisik - tidak boleh lebih kecil dari ukuran atom, atau ukuran terkecil yang dapat Anda amati dalam percobaan Anda. LanjutLUαβσ2LUtidak bisa lebih besar dari bumi (atau matahari jika Anda ingin benar-benar konservatif). Dengan cara ini Anda menjaga properti invarian Anda, dan yang lebih mudah sebelum sampel dari: ambil , lalu nilai simulasi sebagai .q(b)Uniform(log(L),log(U))σ(b)2=exp(q(b))

probabilityislogic
sumber
5
+1 untuk tidak hanya menjawab pertanyaan, tetapi juga memberikan saran yang bermanfaat.
whuber
+1 - seragam untuk pada rentang "besar" sering merupakan pilihan yang baik. Untuk komponen varians dari model hierarkis, saya pikir Anda masih bisa masuk ke ketidaktepatan posterior jika rentangnya terlalu besar karena Anda mendekati Jeffrey lagi. Tapi tentu saja ini adalah perbaikan yang lebih sederhana - hanya saja jangan memilih interval besar :)log(σ)
JMS
@ JMS - dalam pengaturan heirarkis, data tidak "menekan" singularitas pada 0 (yaitu varian level 2 bisa nol). Jadi yang terpenting untuk hal-hal nilai kecil. adalah level 2 yang baik dan varian yang lebih tinggi sebelumnya (saya pikir itu juga disebut "setengah Cauchy", mirip dengan distribusi -distribusi). Ini memiliki "ekor gemuk" dan "data-kuat" dalam hal itu, jika sebelum dan kemungkinan konflik, kemungkinan menang. Juga adalah Jeffreys sebelumnya. Beta2(1,1)F1,1Beta2(0,0)
probabilityislogic
1
@probabilityislogic terima kasih atas penjelasannya. Jika saya mengerti, gamma bagus secara teoritis karena amarahnya adalah dan karena konjugat dengan normal, tetapi dalam aplikasi fitur-fitur ini umumnya tidak diperlukan. Tapi apa perbedaan antara pengambilan sampel dari dan ?[0,]σexp(U(log(L),log(U))σU(L,U)
David LeBauer
@probabilityislogic Tidak familiar dengan notasi Anda, apakah Anda mengacu pada beta prime? Jika demikian, ini pilihan yang menarik. Bukan setengah Cauchy; itu hanya Cauchy terbatas pada . Tetapi beta prime dengan telah disebut "quasi Cauchy" IIRC(0,)α=1,β=1/2
JMS
10

Cukup dekat dengan flat. Mediannya adalah 1.9 E298, hampir nomor satu terbesar dapat mewakili dalam aritmatika mengambang presisi ganda. Seperti yang Anda tunjukkan, probabilitas yang diberikannya pada interval apa pun yang tidak terlalu besar benar-benar kecil. Sulit mendapatkan informasi yang kurang dari itu!

whuber
sumber
terima kasih atas penjelasan anda. Saya telah mengalami masalah konvergensi dan saya terkejut bahwa begitu banyak variabel yang saya kerjakan memiliki mean adalah <1000 (yaitu jika ada sesuatu yang> 1000 g itu diukur dalam kg), dan variansnya berada pada urutan yang sama dengan besarnya. Jadi, saya menyadari bahwa saya membutuhkan lebih banyak prior yang memasukkan informasi ini bahkan jika saya tidak benar-benar memiliki pengetahuan sebelumnya tentang nilainya atau bagaimana mempartisi.
David LeBauer
Bergantung pada modelnya, posterior Anda mungkin sangat dekat dengan penggunaan yang tidak benar ini sebelumnya
JMS