Pertanyaan dasar saya adalah: bagaimana Anda akan mengambil sampel dari distribusi yang tidak tepat? Apakah masuk akal untuk mengambil sampel dari distribusi yang tidak tepat?
Komentar Xi'an di sini semacam menjawab pertanyaan itu, tetapi saya sedang mencari beberapa detail lebih lanjut tentang ini.
Lebih spesifik untuk MCMC:
Dalam berbicara tentang MCMC dan membaca makalah, penulis menekankan telah memperoleh distribusi posterior yang tepat. Ada kertas Geyer (1992) yang terkenal di mana penulis lupa memeriksa apakah posterior mereka benar (jika tidak, makalah yang bagus).
Tapi, anggaplah a kita memiliki kemungkinan dan distribusi sebelumnya yang tidak tepat pada θ sedemikian rupa sehingga posterior yang dihasilkan juga tidak tepat, dan MCMC digunakan untuk sampel dari distribusi. Dalam hal ini, apa yang ditunjukkan oleh sampel? Apakah ada informasi berguna dalam sampel ini? Saya sadar bahwa rantai Markov di sini bersifat sementara atau nol-berulang. Apakah ada take-aways positif jika itu null-berulang ?
Akhirnya, dalam jawaban Neil G di sini , ia menyebutkannya
Anda biasanya dapat mencicipi (menggunakan MCMC) dari posterior bahkan jika itu tidak tepat.
Dia menyebutkan pengambilan sampel seperti itu biasa dalam pembelajaran mendalam. Jika ini benar, bagaimana ini masuk akal?
sumber
Jawaban:
Sampling dari posterior yang tidak benar (density) tidak masuk akal dari probabilistik / sudut pandang teoritis. Alasan untuk ini adalah bahwa fungsi f tidak memiliki integral hingga pada ruang parameter dan, akibatnya, tidak dapat dihubungkan dengan model probabilitas ( ukuran terbatas) ( Ω , σ , P ) (spasi, aljabar-aljabar, ukuran probabilitas ).f f ( Ω , σ, P )
Jika Anda memiliki model dengan prior yang tidak tepat yang mengarah ke posterior yang tidak tepat, dalam banyak kasus Anda masih dapat mengambil sampel darinya menggunakan MCMC, misalnya Metropolis-Hastings, dan "sampel posterior" mungkin terlihat masuk akal. Ini terlihat menarik dan paradoks pada pandangan pertama. Namun, alasan untuk ini adalah bahwa metode MCMC terbatas pada keterbatasan numerik komputer dalam praktiknya, dan oleh karena itu, semua dukungan dibatasi (dan diskrit!) Untuk komputer. Kemudian, di bawah batasan-batasan itu (batas dan kelonggaran) posterior sebenarnya tepat dalam banyak kasus.
Ada referensi hebat oleh Hobert dan Casella yang menyajikan contoh (dari sifat yang sedikit berbeda) di mana Anda dapat membuat sampler Gibbs untuk posterior, sampel posterior terlihat sangat masuk akal, tetapi posterior tidak tepat!
http://www.jstor.org/stable/2291572
Contoh serupa baru-baru ini muncul di sini . Bahkan, Hobert dan Casella memperingatkan pembaca bahwa metode MCMC tidak dapat digunakan untuk mendeteksi ketidakwajaran posterior dan bahwa ini harus diperiksa secara terpisah sebelum menerapkan metode MCMC. Singkatnya:
PS (sedikit lidah di pipi): Jangan selalu percaya apa yang orang lakukan dalam Pembelajaran Mesin. Seperti yang dikatakan Prof. Brian Ripley: "pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi".
sumber
Memberikan alternatif, lebih banyak diterapkan, pandangan dari jawaban yang sangat baik Rod di atas -
Jadi pada prinsipnya saya akan cukup baik dengan menggunakan sampel yang dihasilkan MCMC dari distribusi yang tidak tepat dalam pekerjaan terapan, tapi saya akan membayar banyak perhatian pada bagaimana ketidakwajaran itu terjadi, dan bagaimana sampel acak akan terpengaruh olehnya . Idealnya, sampel acak tidak akan terpengaruh olehnya, seperti dalam contoh hot-dog saya, di mana di dunia yang masuk akal Anda tidak akan pernah benar-benar menghasilkan angka acak yang lebih besar daripada jumlah orang di San Francisco ...
Anda juga harus menyadari fakta bahwa hasil Anda mungkin cukup sensitif terhadap fitur posterior yang menyebabkannya tidak layak, bahkan jika Anda memotongnya pada sejumlah besar di kemudian hari (atau perubahan apa pun yang sesuai untuk model Anda. ) Anda ingin hasil Anda kuat untuk perubahan kecil yang menggeser posterior Anda dari yang tidak tepat menjadi tepat. Ini bisa lebih sulit untuk dipastikan, tetapi merupakan bagian dari masalah yang lebih besar untuk memastikan hasil Anda kuat untuk asumsi Anda, terutama yang dibuat untuk kenyamanan.
sumber