Mengapa seseorang menggunakan pendekatan Bayesian dengan cara 'noninformatif' yang tidak patut daripada pendekatan klasik?

44

Jika bunga hanya memperkirakan parameter model (estimasi pointwise dan / atau interval) dan informasi sebelumnya tidak dapat diandalkan, lemah, (saya tahu ini agak kabur tetapi saya mencoba untuk membangun skenario di mana pilihan suatu sebelumnya sulit) ... Mengapa seseorang memilih untuk menggunakan pendekatan Bayesian dengan prior yang tidak tepat 'bukan informasi daripada pendekatan klasik?


sumber
1
Terima kasih atas pemikiran yang menarik tentang bagian kontroversial dari statistik Bayesian ini. Saya telah membaca dan membandingkan poin Anda. Ada argumen menarik yang memvalidasi penggunaannya dalam hal aturan formal, kepraktisan, dan interpretasi. Saya akan memilih jawaban di beberapa titik, tetapi saya khawatir ini akan menjadi tugas yang sangat sulit.

Jawaban:

24

Dua alasan seseorang dapat menggunakan pendekatan Bayesian bahkan jika Anda menggunakan prior yang sangat tidak informatif:

  • Masalah konvergensi. Ada beberapa distribusi (binomial, binomial negatif dan gamma umum adalah yang paling saya kenal) yang memiliki masalah konvergensi dalam jumlah yang tidak sepele. Anda dapat menggunakan kerangka kerja "Bayesian" - dan metode rantai Markov khusus Monte Carlo (MCMC), untuk membajak melalui masalah konvergensi ini dengan kekuatan komputasi dan mendapatkan perkiraan yang layak dari mereka.
  • Interpretasi. Perkiraan Bayesian + interval kredibel 95% memiliki interpretasi yang lebih intuitif daripada estimasi frequentist + interval kepercayaan 95%, sehingga beberapa mungkin lebih suka untuk melaporkannya.
Fomite
sumber
3
MCMC sebenarnya bukan metode Bayesian. Anda bisa menggambar estimasi dari kemungkinan target Anda (bukan posterior) jika konvergensi adalah masalahnya.
scottyaz
16

Meskipun hasilnya akan sangat mirip, interpretasinya berbeda.

Interval kepercayaan menyiratkan gagasan mengulang percobaan berkali-kali dan mampu menangkap parameter sebenarnya 95% kali. Tetapi Anda tidak bisa mengatakan Anda memiliki peluang 95% untuk menangkapnya.

Interval yang dapat dipercaya (Bayesian), di sisi lain, memungkinkan Anda untuk mengatakan bahwa ada "peluang" 95% bahwa interval menangkap nilai sebenarnya. Pembaruan: Cara Bayesian yang lebih tepat adalah bahwa Anda bisa menjadi 95% yakin tentang hasil Anda.

P(Data|Hypothesis)P(Hypothesis|Data)

Dominic Comtois
sumber
1
Saya mungkin bingung di sini, tetapi bagaimana "nilai sebenarnya" cocok dengan kerangka kerja Bayesian? Mungkin Anda mengacu pada mode posterior (atau rata-rata, atau .. dll)?
Makro
Saya mengacu pada parameter apa pun (nilai populasi) yang Anda perkirakan dengan statistik sampel Anda, baik itu mean, perbedaan rata-rata, kemiringan regresi ... Singkatnya, apa yang Anda cari.
Dominic Comtois
1
Ya, tetapi bukankah "nilai sebenarnya" menunjukkan bahwa parameternya adalah konstan (mis. Distribusinya adalah massa titik)? Seluruh konsep melihat distribusi posterior tampaknya tidak setuju dengan pemikiran parameter dengan cara itu.
Makro
9

±2σ

Menyediakan distribusi posterior penuh dari parameter adalah keuntungan dari pendekatan Bayesian - metode klasik, yang biasanya hanya memberikan estimasi titik parameter yang diwakili oleh mode fungsi kemungkinan, dan memanfaatkan asumsi normalitas asimptotik dan perkiraan kuadratik dari fungsi log-likelihood untuk menggambarkan ketidakpastian. Dengan kerangka kerja Bayesian, kita tidak perlu menggunakan pendekatan apa pun untuk mengevaluasi ketidakpastian karena distribusi posterior lengkap dari parameter tersedia. Selain itu, analisis Bayesian dapat memberikan interval kredibel untuk parameter atau fungsi parameter yang lebih mudah ditafsirkan daripada konsep interval kepercayaan dalam statistik klasik (Congdon, 2001).

Jadi, misalnya, Anda dapat menghitung interval yang kredibel untuk perbedaan antara dua parameter.

Wayne
sumber
6

Sir Harold Jeffreys adalah pendukung kuat pendekatan Bayesian. Dia menunjukkan bahwa jika Anda menggunakan prior yang tidak tepat, kesimpulan Bayesian yang dihasilkan akan sama dengan pendekatan inferensial frequentist (yaitu, wilayah kredibel Bayesian sama dengan interval kepercayaan frequentist). Kebanyakan orang Bayes menganjurkan pemberian informasi yang tepat. Ada masalah dengan prior yang tidak tepat dan beberapa dapat berpendapat bahwa tidak ada prior benar-benar tidak informatif. Saya pikir orang Bayesian yang menggunakan Jeffreys ini sebelumnya melakukannya sebagai pengikut Jeffreys. Dennis Lindley , salah satu pendukung terkuat dari pendekatan Bayesian, sangat menghormati Jeffreys tetapi menganjurkan informasi yang informatif.

Michael Chernick
sumber
1
+1 untuk beberapa baris pertama jawaban Anda. Menurut pendapat saya, alasan untuk memilih sebelum Jeffreys daripada sebelumnya "non-informatif" tidak hanya sebagai pengikut Jeffreys. Itu karena itu benar-benar seperti membuat asumsi sedangkan yang disebut non-informatif sebelumnya adalah membuat asumsi tentang parametrization.
Neil G
1
@ NeilG Saya juga menemukan beberapa orang suka menggunakannya pada dasarnya "Fail Frequentist" (dalam arti yang sama seperti Fail Safe) ketika menggunakan prior non-informatif sehingga mereka dapat ditafsirkan oleh pembaca yang naif.
Fomite
@EpiGrad: Apa maksudmu? (Maaf, pemahaman saya tentang statistik frequentist sangat buruk.)
Neil G
1
@ NeilG Pada dasarnya mengeksploitasi yang sebelumnya Jeffrey akan memberi Anda apa yang diharapkan oleh seseorang yang terlatih dalam bidang yang sering terjadi. Ini adalah jalan tengah yang layak ketika bekerja di metode Bayesian yang ditempatkan belum banyak menembus.
Fomite
@ NeilG Saya juga lupa bahwa, seperti dalam jawaban saya, jika Anda menggunakan MCMC untuk melakukan analisis yang sering terjadi, menyiasati masalah konvergensi, maka prior Jeffrey juga membantu.
Fomite
6

Pendekatan Bayesian memiliki keunggulan praktis. Ini membantu dengan estimasi, seringkali menjadi keharusan. Dan itu memungkinkan keluarga model novel, dan membantu dalam konstruksi model yang lebih rumit (hierarkis, bertingkat).

Sebagai contoh, dengan model campuran (termasuk efek acak dengan parameter varians) satu mendapatkan estimasi yang lebih baik jika parameter varians diperkirakan dengan meminggirkan parameter tingkat yang lebih rendah (koefisien model; ini disebut REML ). Pendekatan Bayesian melakukan ini secara alami. Dengan model ini, bahkan dengan REML, estimasi kemungkinan maksimum (ML) parameter varians seringkali nol, atau bias ke bawah. Sebelum tepat untuk parameter varians membantu.

Bahkan jika estimasi titik ( MAP , maksimum a posteriori) digunakan, prior mengubah keluarga model. Regresi linier dengan sejumlah besar variabel yang agak collinear tidak stabil. Regularisasi L2 digunakan sebagai obat, tetapi dapat ditafsirkan sebagai model Bayesian dengan Gaussian (non-informatif) sebelumnya, dan estimasi MAP. (Regulator L1 adalah prior yang berbeda dan memberikan hasil yang berbeda. Sebenarnya di sini prior mungkin agak informatif, tetapi ini tentang sifat kolektif dari parameter, bukan tentang satu parameter.)

Jadi ada beberapa model umum dan relatif sederhana di mana pendekatan Bayesian dibutuhkan hanya untuk menyelesaikannya!

Hal-hal yang lebih disukai dengan model yang lebih rumit, seperti alokasi Dirichlet laten (LDA) yang digunakan dalam pembelajaran mesin. Dan beberapa model pada dasarnya adalah Bayesian, misalnya, yang didasarkan pada proses Dirichlet .

scellus
sumber
6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
Zen
sumber
6
βlog(σ2)
Terkait dengan komentar @ Cyan.
4

Ada beberapa alasan:

  1. ±SE
  2. Properti sampel besar biasanya sama persis dengan beberapa pendekatan frequentist yang sesuai.
  3. Seringkali ada keengganan yang cukup besar untuk menyetujui prior, tidak peduli berapa banyak yang kita ketahui, karena takut dituduh “tidak objektif”. Dengan menggunakan prior uninformative ("no priors") orang dapat berpura-pura bahwa tidak ada masalah seperti itu, yang akan menghindari kritik dari beberapa pengulas.

Sekarang untuk kerugian hanya menggunakan prior tidak informatif, mulai dengan apa yang saya pikir adalah yang paling penting dan kemudian menuju beberapa aspek teknis yang juga cukup penting:

  1. Jujur saja, interpretasi yang Anda dapatkan sama dengan inferensi frequentist. Anda tidak bisa hanya memberi label ulang inferensi kemungkinan maksimum maksimum Anda secara berkala sebagai inferensi a-posteriori maksimum Bayesian dan mengklaim bahwa ini membebaskan Anda dari segala kekhawatiran tentang beberapa perbandingan, beberapa melihat data dan memungkinkan Anda menginterpretasikan semua pernyataan dalam hal probabilitas bahwa beberapa hipotesis adalah benar. Tentu saja, kesalahan tipe I dan seterusnya adalah konsep yang sering terjadi, tetapi kita sebagai ilmuwan harus peduli membuat klaim palsu dan kita tahu bahwa melakukan hal di atas menyebabkan masalah. Banyak masalah ini hilang (atau setidaknya jauh lebih sedikit dari masalah), jika Anda menanamkan hal-hal dalam model hierarkis / melakukan sesuatu yang empiris, tetapi itu biasanya bermuara pada menghasilkan prior secara implisit melalui prosedur analisis dengan memasukkan dasar Anda sebelumnya dalam model Anda (dan alternatifnya adalah dengan merumuskan prior prior). Pertimbangan ini sering diabaikan, menurut pendapat saya sebagian besar untuk melakukan Bayesian p-hacking (yaitu memperkenalkan multiplisitas, tetapi mengabaikannya) dengan ara-daun alasan bahwa ini tidak masalah ketika Anda menggunakan metode Bayesian (menghilangkan semua kondisi yang akan harus dipenuhi).
  2. Di sisi yang lebih “teknis”, prior uninformative bermasalah, karena Anda tidak dijamin posterior yang tepat. Banyak orang telah melengkapi model Bayesian dengan prior yang tidak informatif dan tidak menyadari bahwa posterior tidak tepat. Akibatnya sampel MCMC dihasilkan yang pada dasarnya tidak berarti.

Poin terakhir adalah argumen untuk memilih prior yang agak kabur (atau sedikit lebih informatif) yang memastikan posterior yang tepat. Memang, kadang-kadang sulit untuk mengambil sampel dari ini juga, dan mungkin sulit untuk memperhatikan bahwa seluruh posterior belum dieksplorasi. Namun, metode Bayesian dengan prior (tidak tepat) prior di banyak bidang telah terbukti memiliki sifat sampel kecil yang sangat baik dari perspektif frequentist dan Anda tentu bisa melihat itu sebagai argumen untuk menggunakannya, sementara dengan data yang lebih banyak akan sulit perbedaan dengan metode apa pun dengan prior yang tidak informatif.

Björn
sumber