Pengambilan sampel dari Distribusi yang Tidak Tepat (menggunakan MCMC dan lainnya)

15

Pertanyaan dasar saya adalah: bagaimana Anda akan mengambil sampel dari distribusi yang tidak tepat? Apakah masuk akal untuk mengambil sampel dari distribusi yang tidak tepat?

Komentar Xi'an di sini semacam menjawab pertanyaan itu, tetapi saya sedang mencari beberapa detail lebih lanjut tentang ini.

Lebih spesifik untuk MCMC:

Dalam berbicara tentang MCMC dan membaca makalah, penulis menekankan telah memperoleh distribusi posterior yang tepat. Ada kertas Geyer (1992) yang terkenal di mana penulis lupa memeriksa apakah posterior mereka benar (jika tidak, makalah yang bagus).

Tapi, anggaplah a kita memiliki kemungkinan dan distribusi sebelumnya yang tidak tepat pada θ sedemikian rupa sehingga posterior yang dihasilkan juga tidak tepat, dan MCMC digunakan untuk sampel dari distribusi. Dalam hal ini, apa yang ditunjukkan oleh sampel? Apakah ada informasi berguna dalam sampel ini? Saya sadar bahwa rantai Markov di sini bersifat sementara atau nol-berulang. Apakah ada take-aways positif jika itu null-berulang ?f(x|θ)θ

Akhirnya, dalam jawaban Neil G di sini , ia menyebutkannya

Anda biasanya dapat mencicipi (menggunakan MCMC) dari posterior bahkan jika itu tidak tepat.

Dia menyebutkan pengambilan sampel seperti itu biasa dalam pembelajaran mendalam. Jika ini benar, bagaimana ini masuk akal?

Greenparker
sumber
@peuhp Sangat membantu. Apa yang saya pahami dari makalah ini adalah bahwa jika fungsional yang akan dievaluasi dari sampel dapat diintegrasikan, maka pengambilan sampel dari posterior yang tidak tepat masuk akal. Apakah interpretasi saya benar?
Greenparker
3
Iya. Pertimbangkan kasus sepele dari posterior yang tidak tepat, di mana ketidaktepatan disebabkan oleh ekor gemuk, dan fungsi yang sama dengan nol di luar dan memiliki semua sifat yang bagus untuk keterpaduan lebih dari [ 0 , 1 ] . Fakta bahwa posterior tidak tepat tidak relevan karena satu-satunya bagian posterior yang penting adalah bagian lebih dari [ 0 , 1 ] . [0,1][0,1][0,1]
jbowman

Jawaban:

10

Sampling dari posterior yang tidak benar (density) tidak masuk akal dari probabilistik / sudut pandang teoritis. Alasan untuk ini adalah bahwa fungsi f tidak memiliki integral hingga pada ruang parameter dan, akibatnya, tidak dapat dihubungkan dengan model probabilitas ( ukuran terbatas) ( Ω , σ , P ) (spasi, aljabar-aljabar, ukuran probabilitas ).ff(Ω,σ,P)

Jika Anda memiliki model dengan prior yang tidak tepat yang mengarah ke posterior yang tidak tepat, dalam banyak kasus Anda masih dapat mengambil sampel darinya menggunakan MCMC, misalnya Metropolis-Hastings, dan "sampel posterior" mungkin terlihat masuk akal. Ini terlihat menarik dan paradoks pada pandangan pertama. Namun, alasan untuk ini adalah bahwa metode MCMC terbatas pada keterbatasan numerik komputer dalam praktiknya, dan oleh karena itu, semua dukungan dibatasi (dan diskrit!) Untuk komputer. Kemudian, di bawah batasan-batasan itu (batas dan kelonggaran) posterior sebenarnya tepat dalam banyak kasus.

Ada referensi hebat oleh Hobert dan Casella yang menyajikan contoh (dari sifat yang sedikit berbeda) di mana Anda dapat membuat sampler Gibbs untuk posterior, sampel posterior terlihat sangat masuk akal, tetapi posterior tidak tepat!

http://www.jstor.org/stable/2291572

Contoh serupa baru-baru ini muncul di sini . Bahkan, Hobert dan Casella memperingatkan pembaca bahwa metode MCMC tidak dapat digunakan untuk mendeteksi ketidakwajaran posterior dan bahwa ini harus diperiksa secara terpisah sebelum menerapkan metode MCMC. Singkatnya:

  1. Beberapa sampler MCMC, seperti Metropolis-Hastings, dapat (tetapi tidak seharusnya) digunakan untuk mengambil sampel dari posterior yang tidak tepat karena komputer membatasi dan mencacah ruang parameter. Hanya jika Anda memiliki sampel besar , Anda mungkin dapat mengamati beberapa hal aneh. Seberapa baik Anda dapat mendeteksi masalah ini juga tergantung pada distribusi "instrumental" yang digunakan dalam sampler Anda. Poin terakhir membutuhkan diskusi yang lebih luas, jadi saya lebih suka meninggalkannya di sini.
  2. (Hobert dan Casella). Fakta bahwa Anda dapat membuat sampler Gibbs (model kondisional) untuk model dengan prior yang tidak patut tidak menyiratkan bahwa posterior (model gabungan) tepat.
  3. Interpretasi probabilistik formal dari sampel posterior membutuhkan kepatutan posterior. Hasil dan bukti konvergensi ditetapkan hanya untuk distribusi / pengukuran probabilitas yang tepat.

PS (sedikit lidah di pipi): Jangan selalu percaya apa yang orang lakukan dalam Pembelajaran Mesin. Seperti yang dikatakan Prof. Brian Ripley: "pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi".

tongkat
sumber
(+1) Jawaban yang bagus, dan memang setuju dengan sebagian besar dari apa yang saya pikirkan. Saya akan membaca referensi Hobert + Casella. Apakah Anda tahu bahwa sesuatu yang lebih baik dapat terjadi jika rantai Markov berulang nol? Juga, setuju dengan komentar PS.
Greenparker
@Greenparker Null rantai Markov berulang tidak memiliki distribusi stasioner. Kemudian, mereka tidak berguna dalam konteks MCMC (di mana Anda membangun rantai Markov dengan distribusi stasioner sama dengan distribusi target), Lihat misalnya di sini dan di sini .
Rod
5

Memberikan alternatif, lebih banyak diterapkan, pandangan dari jawaban yang sangat baik Rod di atas -

+/10100

1/xsebelumnya - yang saya gunakan untuk perhitungan, yang tidak memiliki batas atas, dan "fitur tambahan" di mana itu sama dengan nol di atas populasi San Francisco ... ", dengan" fitur tambahan "diterapkan di langkah berikutnya setelah pembuatan sampel. Sebelumnya sebenarnya bukan yang digunakan dalam perhitungan MCMC (dalam contoh saya.)

Jadi pada prinsipnya saya akan cukup baik dengan menggunakan sampel yang dihasilkan MCMC dari distribusi yang tidak tepat dalam pekerjaan terapan, tapi saya akan membayar banyak perhatian pada bagaimana ketidakwajaran itu terjadi, dan bagaimana sampel acak akan terpengaruh olehnya . Idealnya, sampel acak tidak akan terpengaruh olehnya, seperti dalam contoh hot-dog saya, di mana di dunia yang masuk akal Anda tidak akan pernah benar-benar menghasilkan angka acak yang lebih besar daripada jumlah orang di San Francisco ...

Anda juga harus menyadari fakta bahwa hasil Anda mungkin cukup sensitif terhadap fitur posterior yang menyebabkannya tidak layak, bahkan jika Anda memotongnya pada sejumlah besar di kemudian hari (atau perubahan apa pun yang sesuai untuk model Anda. ) Anda ingin hasil Anda kuat untuk perubahan kecil yang menggeser posterior Anda dari yang tidak tepat menjadi tepat. Ini bisa lebih sulit untuk dipastikan, tetapi merupakan bagian dari masalah yang lebih besar untuk memastikan hasil Anda kuat untuk asumsi Anda, terutama yang dibuat untuk kenyamanan.

Jbowman
sumber
+1, taktik yang menarik. Anda juga bisa memberikan pemotongan sebagai prioritas Anda sebelumnya. Saya membayangkan ketika melakukan mcmc ini mungkin tidak terlalu banyak perhitungan Anda, dan akan menghindari kebutuhan untuk membahas penggunaan perkiraan.
Dugaan
@conjectures - tentu saja, dalam hal ini! Ini hanya contoh sederhana, dimaksudkan untuk menggambarkan titik bahwa a) mungkin ada perbedaan antara sebelumnya digunakan dalam perhitungan MCMC dan sebelumnya aktual, b) perbedaan dapat diselesaikan dengan pasca-pemrosesan sampel MCMC (untuk tingkat yang wajar dari "resolusi"), dan c) ketidaktepatan hasil dari yang sebelumnya digunakan dalam perhitungan MCMC tidak menyiratkan ketidaklayakan hasil setelah pemrosesan dilakukan.
Jbowman