Kami memiliki beragam metode untuk pembangkitan acak dari distribusi univariat (transformasi terbalik, accept-reject, Metropolis-Hastings, dll.) Dan tampaknya kami dapat mengambil sampel dari setiap distribusi yang valid secara literal - apakah itu benar?
Bisakah Anda memberikan contoh distribusi univariat yang tidak mungkin dihasilkan secara acak? Saya kira contoh di mana itu tidak mungkin tidak ada (?), Jadi katakanlah dengan "tidak mungkin" yang kami maksudkan juga kasus-kasus yang sangat mahal secara komputasi, misalnya yang memerlukan simulasi gaya-kasar seperti menggambar sejumlah besar sampel untuk menerima hanya beberapa dari mereka.
Jika contoh tersebut tidak ada, dapat kita benar-benar membuktikan bahwa kita bisa menghasilkan random menarik dari setiap distribusi valid? Saya hanya ingin tahu apakah ada contoh tandingan untuk ini.
Jawaban:
Jika Anda mengetahui fungsi distribusi kumulatif, , maka Anda dapat membalikkannya, baik secara analitik atau numerik, dan menggunakan metode sampling transformasi terbalik untuk menghasilkan sampel acak https://en.wikipedia.org/wiki/Inverse_transform_sampling .F( x )
Tentukan . Ini akan menangani distribusi apa pun, baik kontinu, diskrit, atau kombinasi apa pun. Ini selalu dapat diselesaikan secara numerik, dan mungkin secara analitis. Biarkan U menjadi sampel dari variabel acak yang didistribusikan sebagai Seragam [0,1], yaitu, dari generator nomor acak yang seragam [0,1]. Kemudian , didefinisikan seperti di atas, adalah sampel acak dari variabel acak yang memiliki distribusi . F - 1 ( U ) F ( x )F- 1( y) = i n f( x : F( x ) ≥ y) F- 1( U) F( x )
Ini mungkin bukan cara tercepat untuk menghasilkan sampel acak, tetapi ini adalah cara, dengan anggapan bahwa F (x) diketahui.
Jika F (x) tidak diketahui, maka itu cerita yang berbeda.
sumber
Ketika distribusi hanya ditentukan oleh fungsi pembangkit momennya atau dengan fungsi karakteristiknya Φ ( t ) = E [ exp { i t X } ] , jarang ditemukan cara menghasilkan dari distribusi tersebut.ϕ ( t ) = E [ exp{ t X} ] Φ ( t ) = E [ exp{ i t X} ]
Contoh yang relevan dibuat dari distribusi stabilα , yang tidak memiliki bentuk diketahui untuk kepadatan atau cdf, tidak ada fungsi menghasilkan momen, tetapi fungsi karakteristik bentuk tertutup.
Dalam statistik Bayesian, distribusi posterior yang terkait dengan kemungkinan yang sulit diatasi atau hanya set data yang terlalu besar untuk ditampung dalam satu komputer dapat dilihat sebagai tidak mungkin (tepatnya) disimulasikan.
sumber
Dengan asumsi Anda merujuk pada distribusi berkelanjutan. Dengan menggunakan transformasi integral probabilitas , Anda dapat mensimulasikan dari setiap distribusi univariat dengan mensimulasikan u ∼ ( 0 , 1 ) dan kemudian mengambil F - 1 ( u ) . Jadi, kita bisa mensimulasikan seragam, maka bagian itu selesai. Satu-satunya hal yang dapat menghalangi simulasi dari F adalah bahwa Anda tidak dapat menghitung invers F - 1 , tetapi ini harus dikaitkan dengan kesulitan komputasi, daripada sesuatu yang teoritis.F u ∼ ( 0 , 1 ) F- 1( kamu ) F F- 1
sumber
Ada beberapa metode untuk memperkirakan sampel dari posterior ini dalam beberapa kasus, tetapi tidak ada metode umum yang tepat saat ini.
sumber
sumber
Jika Anda hanya tertarik untuk mengambil sampel variabel acak yang nilainya dapat didekati secara wajar dengan angka floating-point 64-bit, atau Anda memiliki toleransi yang serupa untuk kesalahan hingga dalam nilainya, dan Anda tidak mewakili sampel Anda, mesin Turing bagaimanapun juga. , pertimbangkan ini:
Dalam hal ini, jawaban yang jelas tampak jelas:
Sedikit lebih formal: Saya memberi Anda contoh besar masalah NP-complete (atau EXP-complete, dll.) Dan meminta Anda untuk secara seragam mencicipi serangkaian solusi untuk saya.
Anda dapat dengan mudah memeriksa apakah setiap penugasan kebenaran yang diberikan memenuhi instance SAT saya, dan setelah memeriksa semua yang Anda tahu apakah ada yang melakukannya, maka saya telah menentukan CDF sepenuhnya dengan memberi Anda formula boolean (atau sirkuit), belum mencicipi distribusi yang sesuai. Anda harus pada dasarnya menjadi sesuatu yang setidaknya sekuat oracle SAT-solvability.
Jadi saya memberi Anda nomor yang tidak dapat dihitung yang harus membuang pasir di gigi Anda, dan saya memberi Anda CDF yang lambat untuk dihitung. Mungkin pertanyaan jelas berikutnya untuk ditanyakan adalah seperti ini: apakah ada CDF yang direpresentasikan dalam bentuk yang efisien (misalnya dapat dievaluasi dalam waktu polinomial) sehingga sulit untuk menghasilkan sampel dengan distribusi itu? Saya tidak tahu jawabannya. Saya tidak tahu jawabannya.
sumber