Bootstrap vs Bayesian Bootstrap konseptual?

21

Saya mengalami kesulitan memahami apa proses Bootstrap Bayesian, dan bagaimana hal itu akan berbeda dari bootstrap normal Anda. Dan jika seseorang dapat menawarkan tinjauan intuitif / konseptual dan perbandingan keduanya, itu akan bagus.

Mari kita ambil contoh.

Katakanlah kita memiliki X dataset yang [1,2,5,7,3].

Jika kita sampel dengan penggantian beberapa kali untuk membuat ukuran sampel sama dengan ukuran X (jadi, [7,7,2,5,7], [3,5,2,2,7], dll), lalu kita menghitung sarana masing-masing, apakah distribusi bootstrap rata-rata sampel?

Apa yang akan menjadi distribusi bootstrap bayesian itu?

Dan bagaimana distribusi bootstrap bayesian dari parameter lain (varians, dll) dilakukan dengan cara yang sama?

SpicyClubSauce
sumber
4
Lihat sumsar.net/blog/2015/04/… dan projecteuclid.org/euclid.aos/1176345338 , mungkin @ rasmus-bååth dapat menjawab Anda;)
Tim

Jawaban:

27

The (frequentist) bootstrap mengambil data sebagai pendekatan yang masuk akal untuk distribusi penduduk yang tidak diketahui. Oleh karena itu, distribusi sampling dari suatu statistik (fungsi data) dapat diperkirakan dengan mengulangi pengamatan berulang kali dengan penggantian dan menghitung statistik untuk setiap sampel.

Biarkan menunjukkan data asli. (Dalam contoh yang diberikan, n = 5. ) Misalkan y b = ( y b 1 , , y b n ) menunjukkan sampel bootstrap. Sampel tersebut mungkin akan memiliki beberapa pengamatan berulang satu kali atau lebih dan pengamatan lainnya akan absen. Mean dari sampel bootstrap diberikan oleh m b = 1y=(y1,...,yn)n=5yb=(y1b,...,ynb)Ini adalah distribusimbselama beberapa ulangan bootstrap yang digunakan untuk mendekati distribusi sampling dari populasi yang tidak diketahui.

mb=1ni=1nyib.
mb

Dalam rangka untuk memahami hubungan antara bootstrap frequentist dan bootstrap Bayesian, itu adalah pelajaran untuk melihat bagaimana untuk menghitung dari perspektif yang berbeda.mb

Dalam setiap sampel bootstrap , setiap pengamatan y i terjadi di mana saja dari 0 sampai n kali. Misalkan h b i menyatakan berapa kali y saya muncul dalam y b , dan misalkan h b = ( h b 1 , , h b n ) . Dengan demikian h b i{ 0 , 1 , ... , n - 1 , n }ybyinhibyiybhb=(h1b,...,hnb)hsayab{0,1,...,n-1,n}dan . Mengingat h b , kita dapat membangun koleksi bobot non-negatif yang berjumlah satu: w b = h b / n , di mana w b i = h b i / n . Dengan notasi ini kita bisa reexpress mean dari sampel bootstrap sebagai m b = n Σ i = 1 w b isaya=1nhsayab=nhbwb=hb/nwsayab=hsayab/n

mb=saya=1nwsayabysaya.

Cara di mana pengamatan dipilih untuk sampel bootstrap menentukan distribusi bersama untuk . Secara khusus, h b memiliki distribusi multinomial dan dengan demikian ( nwbhbOleh karena itu, kita dapat menghitung m b dengan menggambar w b dari distribusi dan menghitung dot produk dengan y . Dari perspektif baru ini, tampak bahwa pengamatantetapsementara bobotnya bervariasi.

(nwb)Multinomial(n,(1/n)saya=1n).
mbwby

Dalam inferensi Bayesian, pengamatan memang dilakukan sebagai tetap, sehingga perspektif baru ini tampaknya cocok dengan pendekatan Bayesian. Memang, perhitungan rata-rata sesuai dengan bootstrap Bayesian hanya berbeda dalam distribusi bobot. (Namun demikian, dari sudut pandang konseptual bootstrap Bayesian sangat berbeda dari versi frequentist.) Data diperbaiki dan bobot w adalah parameter yang tidak diketahui. Kita mungkin tertarik pada beberapa fungsional dari data yang tergantung pada parameter yang tidak diketahui: μ = n Σ i = 1 w iyw

μ=saya=1nwsayaysaya.

Berikut ini adalah sketsa gambar kecil dari model di belakang bootstrap Bayesian: Distribusi pengambilan sampel untuk pengamatan adalah multinomial dan sebelum bobot adalah distribusi Dirichlet yang membatasi yang menempatkan semua bobotnya pada simpul simpleks. (Beberapa penulis menyebut model ini sebagai model kemungkinan multinomial .)

wDirichlet(1,...,1).

μwy

saya=1nwsayag(ysaya,θ)=0_,
g(ysaya,θ)θ0_θywwkemungkinan empiris dan dengan metode momen umum (GMM).)

saya=1nwsaya(ysaya-μ)=0.
θ=(μ,v)
g(ysaya,θ)=(ysaya-μ(ysaya-μ)2-v).
mef
sumber
1
Terima kasih untuk uraiannya yang sangat rinci. Secara pribadi saya akan menghargai pernyataan singkat tentang kapan harus memilih masing-masing.
ErichBSchulz