Apakah prior Bayesian menjadi tidak relevan dengan ukuran sampel yang besar?

26

Saat melakukan inferensi Bayesian, kami beroperasi dengan memaksimalkan fungsi kemungkinan kami bersama dengan prior yang kami miliki tentang parameter. Karena kemungkinan log lebih nyaman, kami secara efektif memaksimalkan menggunakan MCMC atau yang menghasilkan distribusi posterior (menggunakan pdf untuk setiap parameter sebelum dan setiap kemungkinan titik data).di(sebelumnya)+di(kemungkinan)

Jika kita memiliki banyak data, kemungkinan hal itu akan membanjiri setiap informasi yang disediakan sebelumnya, oleh matematika sederhana. Pada akhirnya, ini bagus dan sesuai desain; kita tahu bahwa posterior akan bertemu dengan kemungkinan dengan lebih banyak data karena memang seharusnya.

Untuk masalah yang didefinisikan oleh prior konjugat, ini bahkan bisa dibuktikan dengan tepat.

Apakah ada cara untuk memutuskan kapan prior tidak penting untuk fungsi kemungkinan yang diberikan dan beberapa ukuran sampel?

piksel
sumber
3
Kalimat pertama Anda tidak benar. Inferensi Bayesian, dan algoritma MCMC, tidak memaksimalkan kemungkinan.
niandra82
5
Apakah Anda terbiasa dengan kemungkinan marginal, faktor Bayes, distribusi prediktif sebelum / posterior, pemeriksaan prediktif sebelum / posterior? ini adalah jenis hal yang akan Anda gunakan untuk membandingkan model dalam Paradigma Bayesian. Saya pikir pertanyaan ini bermuara pada apakah atau tidak faktor Bayes, antara model yang hanya berbeda dengan sebelumnya, akan konvergen ke 1 sebagai ukuran sampel pergi hingga tak terbatas. Anda mungkin juga ingin mengesampingkan prior yang terpotong di dalam ruang parameter yang tersirat oleh kemungkinan, karena ini berpotensi dapat menolak target dari konvergensi ke estimasi kemungkinan maksimum.
Zachary Blumenfeld
@ZacharyBlumenfeld: ini bisa memenuhi syarat sebagai jawaban yang tepat!
Xi'an
Apakah bentuk yang diperbaiki "memaksimalkan aturan Bayes"? Juga, model yang saya kerjakan berbasis fisik, jadi ruang parameter yang terpotong adalah keharusan untuk pekerjaan tersebut. (Saya juga setuju bahwa komentar Anda mungkin merupakan jawaban, bisakah Anda menyempurnakannya @ZacharyBlumenfeld?)
piksel

Jawaban:

37

Itu tidak mudah. Informasi dalam data Anda melebihi informasi sebelumnya tidak hanya ukuran sampel Anda besar, tetapi ketika data Anda memberikan informasi yang cukup untuk membanjiri informasi sebelumnya. Prior yang tidak informatif dapat dengan mudah dibujuk oleh data, sedangkan yang sangat informatif mungkin lebih tahan. Dalam kasus ekstrem, dengan prior yang tidak jelas, data Anda mungkin tidak dapat mengatasinya sama sekali (mis. Kepadatan nol di beberapa wilayah).

Ingat bahwa dengan teorema Bayes kita menggunakan dua sumber informasi dalam model statistik kita, out-of-data, informasi sebelumnya , dan informasi yang disampaikan oleh data dalam fungsi kemungkinan :

belakangsebelumnya×kemungkinan

Saat menggunakan prior yang tidak informatif (atau kemungkinan maksimum), kami mencoba memasukkan informasi sebelumnya yang mungkin minimal ke dalam model kami. Dengan prior prior, kami membawa sejumlah besar informasi ke dalam model. Jadi, baik data maupun sebelumnya, memberi tahu kami nilai estimasi parameter yang lebih masuk akal, atau dapat dipercaya. Mereka dapat membawa informasi yang berbeda dan masing-masing dapat mengalahkan yang lain dalam beberapa kasus.

Biarkan saya menggambarkan ini dengan model beta-binomial yang sangat mendasar (lihat di sini untuk contoh terperinci ). Dengan "tidak informatif" sebelumnya , sampel yang cukup kecil mungkin cukup untuk mengalahkannya. Pada plot di bawah ini Anda dapat melihat prior (kurva merah), kemungkinan (kurva biru), dan posterior (kurva violet) dari model yang sama dengan ukuran sampel yang berbeda.

masukkan deskripsi gambar di sini

Di sisi lain, Anda dapat memiliki informasi sebelumnya yang mendekati nilai sebenarnya, yang juga akan mudah, tetapi tidak semudah seperti yang informatif setiap minggu, dibujuk oleh data.

masukkan deskripsi gambar di sini

Kasus ini sangat berbeda dengan prior informatif, ketika jauh dari apa yang dikatakan data (menggunakan data yang sama seperti pada contoh pertama). Dalam hal ini, Anda perlu sampel yang lebih besar untuk mengatasi yang sebelumnya.

masukkan deskripsi gambar di sini

Jadi ini bukan hanya tentang ukuran sampel, tetapi juga tentang apa data Anda dan apa yang Anda inginkan sebelumnya. Perhatikan bahwa ini adalah perilaku yang diinginkan , karena ketika menggunakan prior informatif kami ingin berpotensi memasukkan informasi out-of-data dalam model kami dan ini tidak mungkin jika sampel besar akan selalu membuang prior.

Karena hubungan posterior-likelihood-sebelum yang rumit, selalu baik untuk melihat distribusi posterior dan melakukan beberapa pemeriksaan prediktif posterior (Gelman, Meng dan Stern, 1996; Gelman dan Hill, 2006; Gelman et al, 2004). Selain itu, seperti yang dijelaskan oleh Spiegelhalter (2004), Anda dapat menggunakan prior yang berbeda, misalnya "pesimistis" yang menyatakan keraguan tentang efek besar, atau "antusias" yang optimis tentang perkiraan efek. Membandingkan bagaimana berbagai perilaku yang berbeda dengan data Anda dapat membantu menilai secara informal sejauh mana posterior dipengaruhi oleh sebelumnya.


Spiegelhalter, DJ (2004). Memasukkan gagasan Bayesian ke dalam evaluasi perawatan kesehatan. Ilmu Statistik, 156-174.

Gelman, A., Carlin, JB, Stern, HS, dan Rubin, DB (2004). Analisis data Bayesian. Chapman & Hall / CRC.

Gelman, A. and Hill, J. (2006). Analisis data menggunakan regresi dan model bertingkat / hierarkis. Cambridge University Press.

Gelman, A., Meng, XL, dan Stern, H. (1996). Penilaian prediktif posterior kebugaran model melalui perbedaan yang direalisasikan. Statistica sinica, 733-760.

Tim
sumber
2
Kontribusi yang bagus, terima kasih Tim. Saya ingin menambahkan bahwa kontras yang Anda tata dengan sangat baik di sini dapat muncul dengan sendirinya bahkan dalam satu dan model yang sama yang terkait dengan parameter berbeda dari model itu. Mungkin ada beberapa parameter tentang data yang menawarkan informasi yang dapat diabaikan, dalam hal ini prior kasus dapat berfungsi secara kritis untuk memberikan batasan pengidentifikasian .
David C. Norris
Dalam matriks grafik 3x3 pertama, apakah grafiknya benar? Posterior sepenuhnya rata dan termasuk n = 25?
MichiganWater
1
@MichiganWater setiap koleksi 9-plot menggunakan skala yang sama untuk sumbu-y sehingga nilai-nilai terbesar tidak keluar dari layar. Jadi mereka relatif datar jika Anda memiliki lebih banyak data. Jika Anda "memperbesar", mereka tidak akan rata.
Tim
11

Saat melakukan inferensi Bayesian, kami beroperasi dengan memaksimalkan fungsi kemungkinan kami bersama dengan prior yang kami miliki tentang parameter.

Ini sebenarnya bukan apa yang kebanyakan praktisi anggap sebagai inferensi Bayesian. Dimungkinkan untuk memperkirakan parameter dengan cara ini, tetapi saya tidak akan menyebutnya inferensi Bayesian.

Bayesian inference menggunakan distribusi posterior untuk menghitung probabilitas posterior (atau rasio probabilitas) untuk hipotesis yang bersaing.

Distribusi posterior dapat diperkirakan secara empiris dengan teknik Monte Carlo atau Markov-Chain Monte Carlo (MCMC).

Mengesampingkan perbedaan ini, pertanyaannya

Apakah prior Bayesian menjadi tidak relevan dengan ukuran sampel yang besar?

masih tergantung pada konteks masalah dan apa yang Anda pedulikan.

Jika yang Anda pedulikan adalah prediksi yang diberikan sampel yang sudah sangat besar, maka jawabannya umumnya ya, prior tidak relevan secara asimptot *. Namun, jika yang Anda pedulikan adalah pemilihan model dan pengujian Hipotesis Bayesian, maka jawabannya adalah tidak, prior sangat penting, dan pengaruhnya tidak akan memburuk dengan ukuran sampel.

* Di sini, saya berasumsi bahwa prior tidak terpotong / disensor di luar ruang parameter yang tersirat oleh kemungkinan, dan bahwa mereka tidak begitu tidak ditentukan sehingga menyebabkan masalah konvergensi dengan kepadatan mendekati nol di wilayah penting. Argumen saya juga asimtotik, yang datang dengan semua peringatan biasa.

Kepadatan Prediktif

dN=(d1,d2,...,dN)dsayaf(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)fHairj=1,2

θθNjπN(θdN,λj)θ^N=maksθ{f(dNθ)}θN1θN2θ^Nθε>0

limNPr(|θNj-θ|ε)=0j{1,2}limNPr(|θ^N-θ|ε)=0

θNj=maksθ{πN(θdN,λj)}

f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

Seleksi Model dan Pengujian Hipotesis

Jika seseorang tertarik dalam pemilihan model Bayesian dan pengujian hipotesis mereka harus menyadari bahwa efek dari sebelumnya tidak hilang secara asimptotik.

f(dNmHaidel)

KN=f(dNmHaidel1)f(dNmHaidel2)
Pr(mHaideljdN)=f(dNmHaidelj)Pr(mHaidelj)l=1L.f(dNmHaidell)Pr(mHaidell)

f(dNλj)=Θf(dNθ,λj)π0(θλj)dθ

f(dNλj)=n=0N-1f(dn+1dn,λj)
f(dN+1dN,λj)f(dN+1dN,θ)f(dNλ1)f(dNθ)f(dNλ2)
f(dNλ1)f(dNλ2)hal1
h(dNM.)=Θh(dNθ,M.)π0(θM.)dθ
f(dNλ1)h(dNM.)f(dNλ2)h(dNM.)
Zachary Blumenfeld
sumber
5

Masalah lain yang perlu diingat adalah Anda dapat memiliki banyak data , tetapi masih memiliki sedikit informasi tentang parameter tertentu dalam model Anda. Dalam kasus seperti itu, bahkan sebelumnya sedikit informatif dapat sangat membantu ketika melakukan inferensi

Sebagai contoh konyol, anggaplah Anda membandingkan cara dua kelompok dan Anda memiliki 1.000.000 sampel kelompok 1 dan 10 sampel kelompok 2. Kemudian dengan jelas memiliki informasi sebelumnya tentang kelompok 2 dapat meningkatkan inferensi, meskipun Anda telah mengumpulkan lebih dari satu juta sampel.

Dan sementara contoh itu mungkin sepele, itu mulai mengarah pada beberapa implikasi yang sangat penting. Jika kita ingin memahami beberapa fenomena rumit, hal yang cerdas untuk dilakukan adalah mengumpulkan banyak informasi mengenai bagian-bagian yang tidak kita pahami dan sedikit informasi tentang bagian-bagian yang kita mengerti. Jika kita mengumpulkan banyak data dengan cara seperti itu, membuang yang sebelumnya karena kita memiliki banyak data adalah pilihan yang sangat buruk; kami baru saja mengatur kembali analisis kami karena kami tidak membuang waktu mengumpulkan data pada hal-hal yang sudah kami ketahui!

Cliff AB
sumber