Apakah ada distribusi univariat yang tidak dapat kami sampel?

12

Kami memiliki beragam metode untuk pembangkitan acak dari distribusi univariat (transformasi terbalik, accept-reject, Metropolis-Hastings, dll.) Dan tampaknya kami dapat mengambil sampel dari setiap distribusi yang valid secara literal - apakah itu benar?

Bisakah Anda memberikan contoh distribusi univariat yang tidak mungkin dihasilkan secara acak? Saya kira contoh di mana itu tidak mungkin tidak ada (?), Jadi katakanlah dengan "tidak mungkin" yang kami maksudkan juga kasus-kasus yang sangat mahal secara komputasi, misalnya yang memerlukan simulasi gaya-kasar seperti menggambar sejumlah besar sampel untuk menerima hanya beberapa dari mereka.

Jika contoh tersebut tidak ada, dapat kita benar-benar membuktikan bahwa kita bisa menghasilkan random menarik dari setiap distribusi valid? Saya hanya ingin tahu apakah ada contoh tandingan untuk ini.

Tim
sumber
6
Itu benar-benar turun ke apa yang Anda maksud dengan "tidak bisa / tidak mungkin", saya pikir. Ada kasus-kasus ketika cdf dan pdf sangat mahal untuk dievaluasi, misalnya, yang akan membuat sebagian besar metode menjadi penghalang, dan tidak sulit untuk menghasilkan bentuk distribusi di mana batas amplop yang baik pada pdf (untuk menerima-menolak yang kebanyakan menghindari evaluasi fungsi) tidak tersedia. Jadi itu akan gagal jika Anda sudah mengecualikan dan kami bisa membuat bahkan lebih mahal (per menyimpang, rata-rata) untuk menghitung daripada menggunakan accept-reject (yang akan mengecualikan mencoba menggunakan inversi numerik dari cdf)F
Glen_b -Reinstate Monica
3
Kami tidak dapat menggambar sampel acak yang seragam dari himpunan bilangan irasional pada interval (0,1) menggunakan komputer. Bukti dibiarkan sebagai latihan untuk pembaca.
Cliff AB
2
@Cliff AB Ini dapat ditangani dengan interval aritmatika. Tentukan interval (terkecil) di sekitar setiap titik yang dapat dievaluasi (rasional) komputer sehingga keseluruhan [0,1] dicakup oleh interval ini. Untuk setiap komputer yang dievaluasi "seragam" yang ditarik, evaluasi t (dengan pembulatan ke luar) dengan kebalikan interval dari fungsi distribusi kumulatif pada argumen interval ini. Itu akan menghasilkan sampel interval dari variabel acak, 100% dijamin mengandung sampel yang benar.
Mark L. Stone
2
Apa yang saya maksudkan adalah karena Anda sudah menghitung tidak cukup menerima penolakan sebagai "tidak mungkin", jika Anda membuatnya cukup mahal sehingga pendekatan lain yang Anda tahu lebih buruk (memerlukan lebih banyak perhitungan) Anda mungkin akan mempertimbangkan yang "tidak mungkin" juga. Membangun mahal untuk mengevaluasi F dan f tidak terlalu sulit, dan membuatnya sedemikian rupa sehingga menghindari cara penghitungan yang sebenarnya sebagian besar waktu juga tidak efisien tampaknya mungkin terjadi ,,,
ctd
1
ctd ... (tapi secara kolektif, orang-orang cukup cerdik, jadi apa yang kelihatannya sangat sulit suatu hari mungkin layak jika Anda datang dengan ide bagus yang dapat mengatasi sebagian besar masalah). Jika kita mengatakan "perkiraan untuk akurasi ini-dan-itu baik-baik saja" maka banyak dari kesulitan ini dapat diselesaikan dalam banyak kasus (misalnya, orang mungkin dapat membangun tabel pencarian besar / generasi-dari-histogram, katakanlah, seperti bahwa sebagian besar waktu Anda menghasilkan nilai perkiraan cukup cepat).
Glen_b -Reinstate Monica

Jawaban:

15

Jika Anda mengetahui fungsi distribusi kumulatif, , maka Anda dapat membalikkannya, baik secara analitik atau numerik, dan menggunakan metode sampling transformasi terbalik untuk menghasilkan sampel acak https://en.wikipedia.org/wiki/Inverse_transform_sampling .F(x)

Tentukan . Ini akan menangani distribusi apa pun, baik kontinu, diskrit, atau kombinasi apa pun. Ini selalu dapat diselesaikan secara numerik, dan mungkin secara analitis. Biarkan U menjadi sampel dari variabel acak yang didistribusikan sebagai Seragam [0,1], yaitu, dari generator nomor acak yang seragam [0,1]. Kemudian , didefinisikan seperti di atas, adalah sampel acak dari variabel acak yang memiliki distribusi . F - 1 ( U ) F ( x )F1(y)=inf(x:F(x)y)F1(U)F(x)

Ini mungkin bukan cara tercepat untuk menghasilkan sampel acak, tetapi ini adalah cara, dengan anggapan bahwa F (x) diketahui.

Jika F (x) tidak diketahui, maka itu cerita yang berbeda.

Mark L. Stone
sumber
2
Jika tidak diketahui, lalu apa yang diketahui? Jelas itu relevan. Jika Anda tidak tahu apa-apa, Anda tidak akan bisa melakukan apa pun. Jika Anda tahu sesuatu, maka itu tergantung pada apa itu sesuatu itu.F(x
Mark L. Stone
@ Tim Sebenarnya, sangat umum bahwa kita tidak tahu F (X), tetapi kita dapat menghasilkan sampel dari itu. Itu adalah skenario tipikal dalam simulasi Monte Carlo (stokastik).
Mark L. Stone
@ Tim: Jika Anda tidak tertarik dengan cerita ini, tidak jelas cerita apa yang Anda minati. Sebagai tanggapan atas komentar Glen_b, Anda mengatakan Anda tidak peduli dengan pengambilan sampel yang tidak efisien. Metode ini, meskipun tidak efisien, akan memungkinkan Anda untuk mengambil sampel dari pdf apa pun (dengan asumsi tidak berperilaku buruk sehingga integrasi numerik gagal, tetapi saya tidak berpikir ada yang peduli dengan menggunakan distribusi semacam itu). Jadi, kecuali jika Anda tertarik, katakanlah, distribusi yang terputus-putus di jumlah tempat yang tak terbatas, ini harus menjadi jawaban untuk pertanyaan Anda: ya kami bisa.
Cliff AB
Sebenarnya, jika diketahui tetapi bukan F - 1 , ini merupakan masalah. FF1
Xi'an
1
Itu tergantung apa yang Anda maksud dengan masalah. Jika diketahui, maka per jawaban saya, F - 1 ( y ) = i n f ( x : F ( x ) y ) selalu didefinisikan dengan baik dan dapat diselesaikan secara numerik. Mungkin tidak secepat yang Anda inginkan, jadi jika itu yang Anda maksudkan dengan masalah, ok Jika bukan itu yang Anda maksudkan, lalu apa masalahnya? FF1(y)=inf(x:F(x)y)
Mark L. Stone
7

Ketika distribusi hanya ditentukan oleh fungsi pembangkit momennya atau dengan fungsi karakteristiknya Φ ( t ) = E [ exp { i t X } ] , jarang ditemukan cara menghasilkan dari distribusi tersebut.ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

Contoh yang relevan dibuat dari distribusi stabilα , yang tidak memiliki bentuk diketahui untuk kepadatan atau cdf, tidak ada fungsi menghasilkan momen, tetapi fungsi karakteristik bentuk tertutup.

Dalam statistik Bayesian, distribusi posterior yang terkait dengan kemungkinan yang sulit diatasi atau hanya set data yang terlalu besar untuk ditampung dalam satu komputer dapat dilihat sebagai tidak mungkin (tepatnya) disimulasikan.

Xi'an
sumber
Jika Anda hanya tahu fungsi menghasilkan momen, Anda bisa menggunakan pendekatan saddlepoint dan kemudian mensimulasikan dari itu.
kjetil b halvorsen
1
@ Xi'an Anda mengabaikan kata "efisien". Dalam kasus terburuk, Anda dapat membalikkan inversi numerik dari transformasi secara numerik. Itu akan melakukan pekerjaan, mungkin tidak "efisien", tetapi akan melakukannya.
Mark L. Stone
3
@ kjetilbhalvorsen: pendekatan saddlepoint adalah solusi yang diusulkan dalam tautan yang saya masukkan. Tapi itu perkiraan!
Xi'an
2

Dengan asumsi Anda merujuk pada distribusi berkelanjutan. Dengan menggunakan transformasi integral probabilitas , Anda dapat mensimulasikan dari setiap distribusi univariat dengan mensimulasikan u ( 0 , 1 ) dan kemudian mengambil F - 1 ( u ) . Jadi, kita bisa mensimulasikan seragam, maka bagian itu selesai. Satu-satunya hal yang dapat menghalangi simulasi dari F adalah bahwa Anda tidak dapat menghitung invers F - 1 , tetapi ini harus dikaitkan dengan kesulitan komputasi, daripada sesuatu yang teoritis.Fu(0,1)F1(u)FF1

Conti
sumber
1

θ=(θ1,...,θd)θj

Ada beberapa metode untuk memperkirakan sampel dari posterior ini dalam beberapa kasus, tetapi tidak ada metode umum yang tepat saat ini.

Nuh
sumber
... tetapi pertanyaannya adalah tentang distribusi univariat. Ada banyak contoh model rumit di mana MCMC gagal untuk bertemu bahkan setelah sejumlah besar iterasi.
Tim
@Tim Dan itulah mengapa saya mengatakan marginal posterior , yang berarti univariat ... Menurut saya, Anda tidak memiliki jelas apa yang Anda minta. Dua jawaban pertama jelas dalam hal itu secara teoritis, dimungkinkan untuk mengambil sampel dari distribusi mana pun asalkan Anda mengetahuinya.
Noah
1
Saya memilih untuk mengajukan pertanyaan ini [ON HOLD] sampai OP mengklarifikasi apa yang dia tanyakan dan berhenti mengubah pertanyaan setiap kali jawaban baru muncul untuk membuat jawaban tidak dapat diterapkan.
Noah
Saya tidak mengubah pertanyaan saya "setiap kali jawaban baru muncul" ... Jelas model statistik dengan kemungkinan dan sebelumnya tidak univariat karena dinyatakan dalam hal distribusi kondisional. Ini univariat jika Anda mengambil sampel dari posterior, tetapi kemudian saya kira Anda berasumsi bahwa kita sudah memiliki distribusi marjinal sehingga tidak ada masalah dengan posterior intracable.
Tim
1
R
1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1

kjetil b halvorsen
sumber
0

Bisakah Anda memberikan contoh distribusi univariat yang tidak mungkin dihasilkan secara acak?

cc

Jika Anda hanya tertarik untuk mengambil sampel variabel acak yang nilainya dapat didekati secara wajar dengan angka floating-point 64-bit, atau Anda memiliki toleransi yang serupa untuk kesalahan hingga dalam nilainya, dan Anda tidak mewakili sampel Anda, mesin Turing bagaimanapun juga. , pertimbangkan ini:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-sumbu. Saya tidak yakin yang membuat pengambilan sampel paling sulit, jadi pilih yang paling Anda sukai (-))

katakanlah dengan "tidak mungkin" yang kami maksudkan juga kasus-kasus yang sangat mahal secara komputasi, misalnya yang memerlukan simulasi gaya-kasar seperti menggambar sampel dalam jumlah besar untuk menerima hanya sedikit dari mereka.

Dalam hal ini, jawaban yang jelas tampak jelas:

  • nn
  • Cicipi preimage fungsi hash kriptografi (yaitu menghasilkan bitcoin dan break git dan mercurial).
  • Cicipi serangkaian strategi Go yang optimal (dengan aturan superko Cina, yang membuat semua game terbatas — sejauh yang saya mengerti).

Sedikit lebih formal: Saya memberi Anda contoh besar masalah NP-complete (atau EXP-complete, dll.) Dan meminta Anda untuk secara seragam mencicipi serangkaian solusi untuk saya.

R1

Anda dapat dengan mudah memeriksa apakah setiap penugasan kebenaran yang diberikan memenuhi instance SAT saya, dan setelah memeriksa semua yang Anda tahu apakah ada yang melakukannya, maka saya telah menentukan CDF sepenuhnya dengan memberi Anda formula boolean (atau sirkuit), belum mencicipi distribusi yang sesuai. Anda harus pada dasarnya menjadi sesuatu yang setidaknya sekuat oracle SAT-solvability.


Jadi saya memberi Anda nomor yang tidak dapat dihitung yang harus membuang pasir di gigi Anda, dan saya memberi Anda CDF yang lambat untuk dihitung. Mungkin pertanyaan jelas berikutnya untuk ditanyakan adalah seperti ini: apakah ada CDF yang direpresentasikan dalam bentuk yang efisien (misalnya dapat dievaluasi dalam waktu polinomial) sehingga sulit untuk menghasilkan sampel dengan distribusi itu? Saya tidak tahu jawabannya. Saya tidak tahu jawabannya.

Jonas Kölker
sumber