Sejarah teori sebelumnya yang tidak informatif

24

Saya menulis esai teoretis singkat untuk kursus Statistik Bayesian (dalam Ekonomi M.Sc.) tentang prior uninformative dan saya mencoba memahami yang merupakan langkah-langkah dalam pengembangan teori ini.

Sekarang, garis waktu saya dibuat tiga langkah utama: Prinsip ketidakpedulian Laplace (1812), prior Non-Invariant (Jeffreys (1946)), referensi Bernardo sebelumnya (1979).

Dari tinjauan literatur saya, saya telah memahami bahwa prinsip ketidakpedulian (Laplace) adalah alat pertama yang digunakan untuk mewakili kurangnya informasi sebelumnya tetapi persyaratan invarian yang hilang telah menyebabkan ditinggalkannya sampai tahun 40-an, ketika Jeffreys memperkenalkan metodenya, yang memiliki properti invarian yang diinginkan. Munculnya paradoks marjinalisasi karena penggunaan yang tidak tepat sebelumnya pada tahun 70-an mendorong Bernardo untuk menguraikan referensi teori sebelumnya untuk mengatasi masalah ini.

Membaca literatur, setiap penulis mengutip kontribusi yang berbeda: entropi maksimum Jaynes, Box dan kemungkinan data-diterjemahkan Tiao, Zellner, ...

Menurut Anda, apa langkah penting yang saya lewatkan?

EDIT : Saya menambahkan referensi (utama) saya, jika seseorang membutuhkan:

1) Pemilihan sebelumnya oleh aturan formal, Kass, Wasserman

2) Katalog prior non informatif, Yang, Berger

3) Interpretasi Priors Bayesian Noninformatif dan Masalah dengan Konstruksi dan Aplikasi

PhDing
sumber
10
setelah Anda menyelesaikan esai teoretis itu, apakah Anda akan menghubungkannya di sini?
Nikolas Rieble
2
Akan lebih bagus jika Anda bisa memberikan jawaban untuk pertanyaan Anda sendiri yang merangkum tesis Anda.
Tim
3
Saya telah menautkan artikel ini sebelumnya, tetapi sejarah epik kemungkinan maksimum , mencakup "celah" historis antara Laplace dan Jeffrey: di mana karya Gauss, Hotelling, Fisher, Bernoulli, dan yang lainnya menunjuk estimasi menuju kemungkinan maksimum selama waktu itu.
AdamO
2
@alessandro menjelaskan bagaimana pendekatan Laplacian dipertahankan selama satu abad setelah Gauss mengembangkan dan menggunakan cetakan seragam (menganggapnya sebagai tidak informatif). Pearson dan Kristine Smith menyangkal ML karena kesimpulan yang dihasilkan tidak berurusan dengan probabilitas seperti keinginan Bayesian.
AdamO
7
Menit (pedantic, jika Anda suka) tetapi mungkin poin yang berguna: Jeffreys = (Profesor Sir) Harold Jeffreys, ahli matematika terapan Inggris, ahli geofisika dan banyak lagi lainnya; dia menjelaskan kepada saya dalam surat 40 tahun yang lalu bahwa dia lebih suka milik Jeffreys yang posesif karena Jeffreys 'cenderung mutasi ke Jeffrey yang sangat salah. Di atas kita punya contoh! (Itu tidak membantu bahwa Richard C. Jeffrey, filsuf Amerika, orang yang sama sekali berbeda, juga menulis tentang kemungkinan.)
Nick Cox

Jawaban:

13

Apa yang tampaknya Anda lewatkan adalah sejarah awal. Anda dapat memeriksa kertasnya oleh Fienberg (2006) Kapan Bayesian Inference Menjadi "Bayesian"? . Pertama, ia memperhatikan bahwa Thomas Bayes adalah yang pertama menyarankan penggunaan seragam sebelumnya:

Dalam bahasa statistik saat ini, makalah Bayes memperkenalkan distribusi seragam sebelumnya pada parameter binomial, , penalaran dengan analogi dengan "tabel biliar" dan menggambar pada bentuk distribusi marjinal dari variabel acak binomial, dan tidak berdasarkan prinsip "alasan yang tidak memadai," seperti yang banyak diklaim orang lain.θ

Pierre Simon Laplace adalah orang berikutnya yang mendiskusikannya:

Laplace juga mengartikulasikan, lebih jelas daripada Bayes, argumennya untuk pemilihan distribusi yang seragam sebelumnya, dengan alasan bahwa distribusi posterior parameter harus proporsional dengan apa yang sekarang kita sebut kemungkinan data, yaitu,θ

f(θx1,x2,...,xn)f(x1,x2,...,xnθ)

Kami sekarang mengerti bahwa ini menyiratkan bahwa distribusi sebelumnya untuk adalah seragam, meskipun secara umum, tentu saja, yang sebelumnya mungkin tidak ada.θ

Selain itu Carl Friedrich Gauss juga disebut menggunakan informasi sebelumnya, seperti dicatat oleh David dan Edwards (2001) dalam buku mereka Annotated Readings in the History of Statistics :

Gauss menggunakan argumen tipe Bayesian ad hoc untuk menunjukkan bahwa kepadatan posterior sebanding dengan kemungkinan (dalam terminologi modern):h

f(h|x)f(x|h)

di mana ia mengasumsikan didistribusikan secara seragam ke . Gauss tidak menyebutkan Bayes atau Laplace, meskipun yang terakhir telah mempopulerkan pendekatan ini sejak Laplace (1774).h[0,)

dan seperti yang diketahui Fienberg (2006), "probabilitas terbalik" (dan apa yang terjadi kemudian, dengan menggunakan prior uniform) populer pada pergantian abad ke-19.

[...] Dengan demikian, dalam retrospeksi, seharusnya tidak mengejutkan melihat probabilitas terbalik sebagai metode pemilihan ahli statistik Inggris yang hebat pada pergantian abad, seperti Edgeworth dan Pearson. Sebagai contoh, Edgeworth (49) memberikan salah satu derivasi paling awal dari apa yang sekarang kita kenal sebagai distribusi Student , distribusi posterior dari rata-rata dari distribusi normal yang diberikan distribusi sebelumnya yang seragam pada dan [...]tμμh=σ-1

Sejarah awal pendekatan Bayesian juga ditinjau oleh Stigler (1986) dalam bukunya Sejarah statistik: Pengukuran ketidakpastian sebelum 1900 .

Dalam ulasan singkat Anda, Anda juga tampaknya tidak menyebutkan Ronald Aylmer Fisher (sekali lagi dikutip setelah Fienberg, 2006):

Fisher pindah dari metode terbalik dan menuju pendekatannya sendiri untuk menyimpulkan, dia menyebut "kemungkinan," sebuah konsep yang dia klaim berbeda dari probabilitas. Tetapi perkembangan Fisher dalam hal ini lambat. Stigler (164) telah menunjukkan bahwa, dalam sebuah manuskrip yang tidak diterbitkan yang berasal dari tahun 1916, Fisher tidak membedakan antara kemungkinan dan probabilitas terbalik dengan flat sebelumnya, meskipun ketika ia kemudian membuat perbedaan yang ia klaim telah memahaminya pada saat ini.

Jaynes (1986) memberikan makalah ulasan singkatnya sendiri Metode Bayesian: Latar Belakang Umum. Tutorial Pendahuluan yang bisa Anda periksa, tetapi tidak fokus pada prior yang tidak informatif. Selain itu, sebagaimana dicatat oleh AdamO , Anda harus membaca The Epic Story of Maximum Likelihood oleh Stigler (2007).

Perlu juga disebutkan bahwa tidak ada yang namanya "prior uninformative" , sehingga banyak penulis lebih suka berbicara tentang "prior samar" , atau "prior informatif mingguan" .

Tinjauan teoretis disediakan oleh Kass dan Wasserman (1996) dalam pemilihan distribusi sebelumnya oleh aturan formal , yang masuk ke detail yang lebih besar tentang pemilihan prior, dengan diskusi panjang tentang penggunaan prior uninformative.

Tim
sumber
Itulah jawaban yang saya cari. Terima kasih!
PhD
Saya pikir Fienberg memperpanjang kebanggaan orang Bayesian terlalu jauh. Saya pribadi sangat tidak suka menggunakan "probabilitas terbalik" untuk mendefinisikan apa pun karena tampaknya tidak konsisten dengan gambar geometri integral yang diusulkan oleh Adler dan Taylor. Setiap prosedur statistik yang baik harus memiliki korespondensi matematisnya, probabilitas terbalik begitu bengkok sehingga Anda hampir tidak dapat menganalisisnya ketika masalahnya sedikit lebih sensitif oleh pengalaman saya.
Henry.L
@ Henry.L ... namun, itu adalah bagian dari sejarah pemikiran statistik :) Perhatikan juga bahwa bukan hanya Fienberg yang memberikan contoh seperti itu. Seluruh pemberontak anti-terbalik-probabilitas dan anti-Bayesian dimulai karena menjadi sangat populer.
Tim
@Tim Ya, saya kira itulah yang disebut Thomas Kuhn "pengalihan skema" dan juga dikenal sebagai "... lawan akhirnya mati, dan generasi baru tumbuh" :)).
Henry.L
5

Beberapa komentar tentang cacat noninformatif (prior uninformative) mungkin merupakan ide yang baik karena penyelidikan kelemahan tersebut membantu pengembangan konsep noninformatif sebelum dalam sejarah.

Anda mungkin ingin menambahkan beberapa komentar tentang kelemahan / kekurangan mengadopsi prior noninformative. Di antara banyak kritik saya tunjukkan dua.

(1) Secara umum adopsi prior noninformative memiliki masalah konsistensi terutama ketika distribusi model memiliki perilaku multi-modal.

Masalah ini tidak unik untuk prior noninformatif tetapi dibagi oleh banyak prosedur Bayesian lainnya seperti yang ditunjukkan dalam makalah berikut bersama dengan diskusi.

Diaconis, Persi, dan David Freedman. "Tentang konsistensi perkiraan Bayes." The Annals of Statistics (1986): 1-26.

Saat ini prior noninformatif tidak lagi menjadi fokus penelitian. Tampaknya ada lebih banyak minat dalam pilihan yang lebih fleksibel dari sebelumnya dalam pengaturan nonparametrik. Contohnya adalah proses Gaussian sebelum dalam prosedur Bayes nonparametrik atau model yang fleksibel seperti campuran dari dirich prich, seperti dalam

Antoniak, Charles E. "Campuran proses Dirichlet dengan aplikasi untuk masalah nonparametrik Bayesian." Catatan statistik (1974): 1152-1174.

Tetapi sekali lagi prior tersebut memiliki masalah konsistensi sendiri.

(2) Sebagian besar yang disebut "prior noninformative" tidak terdefinisi dengan baik.

Ini mungkin masalah yang paling jelas terkait dengan prior noninformative selama perkembangan mereka.

Salah satu contoh adalah bahwa definisi batas noninformatif sebelum sebagai batas urutan prioritas yang tepat akan mengarah pada paradoks marginalisasi. Seperti yang Anda sebutkan, referensi Bernardo sebelumnya juga memiliki masalah yang tidak pernah dibuktikan oleh Berger bahwa definisi formalnya independen dari konstruksi / partisi. Lihat diskusi di

Berger, James O., José M. Bernardo, dan Dongchu Sun. "Definisi formal tentang prior referensi." The Annals of Statistics (2009): 905-938.

Satu definisi terbaik tentang Jeffreys sebelum yang terdefinisi dengan baik adalah bahwa ia dipilih menjadi prior sedemikian rupa sehingga tidak berubah di bawah terjemahan paralel tertentu atas manifold Riemannian yang dilengkapi dengan metrik informasi Fisher, tetapi bahkan itu tidak menyelesaikan masalah pertama.

Anda juga mungkin ingin membaca penjelasan saya tentang paradoks marginalisasi .

Henry
sumber
Ini adalah pos yang sangat bagus dan tidak ada dari kami yang memikirkannya. Kerja bagus.
Dave Harris
Saya telah membuat beberapa suntingan kecil untuk berekspresi tanpa mencoba mengubah makna atau implikasi apa pun. Harap periksa bahwa artinya Anda tidak berubah dalam penyuntingan.
Nick Cox
4

Saya akan memposting di komentar, tapi saya kira saya belum memiliki reputasi. Satu-satunya hal yang hilang, tidak ada dalam komentar yang sudah ditandai, adalah kasus khusus dari prior noninformative yang asal-usulnya yang saya coba kejar dan belum temukan. Mungkin mendahului kertas Jeffreys.

Untuk distribusi normal, saya telah melihat distribusi Cauchy digunakan sebagai informasi sebelum untuk data dengan kemungkinan normal. Alasannya adalah bahwa ketepatan distribusi Cauchy adalah nol, di mana ketepatan dibagi dengan varians. Ini menciptakan serangkaian konsep kontradiktif yang agak aneh.

1πΓΓ2+(x-μ)2.

Bergantung pada bagaimana Anda mendefinisikan integral tidak ada varians yang ditentukan atau ia pergi hingga tak terbatas tentang median, yang menyiratkan ketepatan pergi ke nol. Dalam pembaruan konjugasi, yang tidak berlaku di sini, Anda menambahkan precision tertimbang. Saya pikir ini adalah mengapa ide ini tentang yang tepat sebelum dengan kepadatan sempurna terbentuk. Ini juga setara dengan t Student dengan satu derajat kebebasan, yang juga bisa menjadi sumbernya.

2Γ

Dua referensi paling awal untuk distribusi Cauchy adalah sebagai fungsi kemungkinan. Yang pertama dalam surat dari Poisson ke Laplace sebagai pengecualian untuk Central Limit Theorem. Yang kedua adalah pada tahun 1851 artikel jurnal dalam pertempuran antara Bienayme 'dan Cauchy atas validitas kuadrat terkecil biasa.

Saya telah menemukan referensi untuk penggunaannya sebagai informasi sebelum kembali ke tahun 1980-an tetapi saya tidak dapat menemukan artikel atau buku pertama. Saya juga belum menemukan bukti bahwa itu tidak informatif. Saya memang menemukan kutipan buku Jeffreys 1961 tentang teori probabilitas, tetapi saya tidak pernah meminta buku itu melalui pinjaman antar perpustakaan.

Ini mungkin hanya sedikit informatif. Wilayah kepadatan tertinggi 99,99% adalah 1272 rentang semi-interkuartil luas.

Saya harap ini membantu. Ini adalah kasus khusus yang aneh, tetapi Anda melihatnya muncul di sejumlah makalah regresi. Ini memenuhi persyaratan untuk tindakan Bayes dengan menjadi prioritas yang tepat, sementara secara minimal memengaruhi lokasi dan skala.

Dave Harris
sumber