Menggambar sampel dari campuran terbatas dari distribusi normal?

10

Setelah beberapa langkah pembaruan Bayesian, saya dibiarkan dengan distribusi posterior bentuk campuran distribusi normal,

Pr(θ|data)=i=1kwiN(μi,σ2).
Yaitu, parameter θ diambil dari distribusi yang PDFnya diberikan sebagai campuran tertimbang dari PDF normal, dan bukan jumlah RV normal. Saya ingin menggambar sampel θPr(θ|data) untuk digunakan dalam perkiraan sampling yang penting dari posterior ini. Dalam praktiknya, penjumlahan atas i dapat memiliki sejumlah besar istilah, sehingga tidak praktis untuk memilih istilah i sesuai dengan bobot {wi} dan kemudian menggambar θN(μi,σ2). Apakah ada cara yang efisien untuk mengambil sampel dari posterior formulir ini?
Chris Granade
sumber
Apakah Anda benar-benar mencoba metode pemilihan lalu melempar? Pemilihan dapat dilakukan dengan cukup cepat dari langkah-langkah O (k).
dmckee --- ex-moderator kitten
1
Jika solusi Barron benar-benar tidak benar, dan Anda sebenarnya berarti "model campuran", bisakah Anda menggunakan istilah itu?
Neil G
1
Neil G: Saya bukan ahli statistik berdasarkan perdagangan, melainkan fisikawan yang terkadang perlu menggunakan statistik. Karena itu, saya tidak tahu istilah yang tepat untuk menggambarkan apa yang saya butuhkan. Saya bisa melanjutkan dan mengedit pertanyaan sekarang, untuk membuatnya lebih jelas bahwa PDF sedang dijumlahkan dan bukan RVs.
Chris Granade
1
@ ChrisGranade: Saya tidak mencoba untuk menjatuhkan Anda. Saya hanya ingin memastikan bahwa itu yang Anda maksud, dan menyarankan hasil edit.
Neil G
1
Mengapa tidak praktis untuk memilih berdasarkan bobot dan sampel dari distribusi seragam pada , lalu sampel ? Ini hanya lebih mahal daripada sampling distribusi normal tunggal, biaya tidak tergantung pada jumlah distribusi campuran dan tidak bergantung pada distribusi yang normal. { w i } [ 0 , 1 ] N ( μ i , σ 2 ) ki{wi}[0,1]N(μi,σ2)k
Jed Brown

Jawaban:

6

Pada prinsipnya seseorang dapat memilih terlebih dahulu jumlah sampel yang akan diambil dari setiap sub-distribusi, kemudian mengunjungi setiap sub-distribusi hanya sekali dan menggambar dari jumlah poin.

Itu adalah

  1. Temukan set acak sedemikian rupa sehingga dan bobotnya.n = k i = 1 n i<n1,n2,,nk>n=i=1kni

    Saya percaya bahwa Anda melakukan ini dengan menggambar distribusi Poisson distribusi multinomial (lihat komentar) dari rata-rata untuk setiap sub-distribusi dan kemudian menormalkan jumlah ke .nwinn

    Pekerjaan di sini adalahO(k)O(n)

  2. Lalu lakukan

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    Pekerjaan di sini adalahO(n)

Meskipun ini berarti Anda tidak mendapatkan secara acak. Jika diperlukan urutan acak, Anda harus mengacak undian (juga big ).O(n)

Sepertinya langkah pertama mendominasi dalam menjalankan waktu dan urutan yang sama dengan algoritma naif, tetapi jika Anda yakin bahwa semua Anda dapat memperkirakan distribusi Poisson dengan distribusi Normal dan mempercepat langkah pertama.win1

dmckee --- mantan kucing moderator
sumber
Distribusi bukan distribusi Poisson jika diperbaiki, tetapi distribusi binomial. nnin
Frédéric Grosshans
@ FrédéricGrosshans Uhm ... di sinilah saya mengakui kelemahan saya dalam hal probabilitas. Melihat saya pikir Anda mungkin benar. Saya tidak memiliki tautan untuk melempar distribusi binomial sembarang, tetapi wikipedia memiliki beberapa referensi . Ada juga hubungan antara Poisson dan Binomial yang akan saya klaim bertanggung jawab atas ketidakpastian saya. Ya, itulah tiketnya.
dmckee --- ex-moderator kitten
1
@dmckee: Jawaban yang bagus untuk menggambar dari model campuran, kecuali bahwa itu harus menjadi distribusi multinomial daripada distribusi Poisson pada langkah 1.
Neil G
3

Catatan: Versi asli dari pertanyaan ini bertanya tentang "jumlah distribusi normal yang berbobot" di mana jawaban berikut mungkin berguna. Namun, setelah sedikit diskusi yang baik tentang jawaban ini, jawaban oleh @ Geoff, dan pada pertanyaan itu sendiri, menjadi jelas pertanyaan itu benar-benar pada sampel "campuran distribusi normal" yang jawaban ini tidak berlaku.


Jumlah dari distribusi normal adalah distribusi normal, sehingga Anda dapat menghitung parameter dari distribusi tunggal ini dan kemudian cukup mengambil sampel dari itu. Jika kita menyebut distribusi itu maka,N(μsum,σsum2)

μsum=i=1kwiμi

σsum2=i=1kwi2σi2
Barron
sumber
3
Singkatnya, Chris menjumlahkan fungsi kepadatan probabilitas, bukan variabel acak.
Geoff Oxberry
2
Chris menginginkan PDF yang memiliki (setidaknya pada prinsipnya) banyak gundukan di dalamnya. Artinya, dia adalah jumlah dari PDF, bukan jumlah dari suatu jumlah.
dmckee --- ex-moderator kitten
1
Memang benar bahwa jumlah variabel acak terdistribusi normal itu sendiri merupakan variabel acak terdistribusi normal. Namun, jumlah distribusi normal bukanlah distribusi normal. Jadi jika dan , memang benar bahwa , tetapi . (Kredit diberikan ke @ChrisGranade untuk penjelasannya.)X1N(μ1,σ12)X2N(μ2,σ22)X1+X2N(μ1+μ2,σ12+σ22)PDF(X1+X2)PDF(X1)+PDF(X2)
Geoff Oxberry
2
@ dmckee: itu bukan "jumlah distribusi normal yang berbobot", itu "campuran distribusi normal".
Neil G
2
@Barron komentar tidak dianggap sebagai bagian penting dari halaman. Anda harus mengedit jawaban Anda untuk memasukkan inti dari komentar sehingga pembaca yang tidak melihat komentar tidak disesatkan.
David Ketcheson
2

Pembaruan : Jawaban ini salah, yang berasal dari kebingungan dalam terminologi (lihat rantai komentar di bawah untuk detailnya); Saya hanya meninggalkannya sebagai penunjuk jalan agar orang tidak mengirim ulang jawaban ini (selain Barron). Tolong jangan memilihnya naik atau turun.

Saya hanya akan menggunakan properti variabel acak untuk menguranginya menjadi variabel acak tunggal yang terdistribusi normal. The jumlah dari dua independen, variabel acak terdistribusi normal itu sendiri merupakan variabel acak , jadi jika dan , laluX1N(μ1,σ12)X2N(μ2,σ22)

X1+X2N(μ1+μ2,σ12+σ22).

Juga, jika , makaw1R

w1X1N(w1μ1,w12σ12).

Menggunakan kedua hasil ini digabungkan, lalu

Pr(θ|data)N(i=1kwiμi,i=1kwi2σi2).

Jadi dalam hal ini, Anda hanya perlu menarik sampel dari satu distribusi, yang seharusnya jauh lebih bisa ditelusuri.

Geoff Oxberry
sumber
2
Ini adalah solusi untuk masalah yang berbeda yang dapat dilihat dari fakta bahwa distribusi asli adalah multi-modal dan saran Anda adalah uni-modal.
Chris Ferrie
@ ChrisFerrie: Saya percaya Anda, tetapi berdasarkan notasi, saya bingung mengapa distribusi di atas multimodal, sedangkan jumlah dua variabel acak Gaussian independen tidak akan. Apa yang kulewatkan di sini?
Geoff Oxberry
Saya pikir kebingungannya adalah bahwa kita tidak melihat jumlah variabel acak, tetapi PDF yang merupakan jumlah dari banyak PDF. Ini tidak selalu sama, karena . Sebaliknya, PDF kita dapat dianggap meminggirkan variabel acak . ip(X1+X2)p(X1)+p(X2)i
Chris Granade
Ah, Anda sedang melihat jumlah PDF. Ya, itu adalah binatang yang sama sekali berbeda. Sekarang saya membaca pertanyaan lebih dekat, saya melihat apa yang Anda katakan, dan saya akan menghapus jawaban saya. Terima kasih!
Geoff Oxberry
Saya telah membatalkan penghapusan jawaban saya yang sebelumnya dihapus hanya untuk berfungsi sebagai pedoman bagi orang lain sehingga tidak ada orang lain yang menjawab pertanyaan ini seperti Barron dan saya. Harap jangan naik atau turun memilih jawaban saya lagi.
Geoff Oxberry