Pertanyaan tentang bootstrap parametrik dan non-parametrik

14

Saya membaca bab tentang Frequent Statistics dari buku Kevin Murphy " Machine Learning - A Probabilistic Perspective ". Bagian tentang bootstrap berbunyi:

Bootstrap adalah teknik Monte Carlo sederhana untuk memperkirakan distribusi pengambilan sampel. Ini sangat berguna dalam kasus di mana estimator adalah fungsi kompleks dari parameter sebenarnya.

Idenya sederhana. Jika kita mengetahui parameter sebenarnya , kita dapat menghasilkan banyak (misalkan ) set data palsu, masing-masing berukuran , dari distribusi sebenarnya, , untuk . Kami kemudian dapat menghitung estimator kami dari setiap sampel, dan menggunakan distribusi empiris dari sampel yang dihasilkan sebagai estimasi kami untuk distribusi sampling. Karena \ theta tidak diketahui, ide bootstrap parametrik SN x s ip(· | θ )s=1:S,i=1:N ^ θ s =f( xθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θ adalah untuk menghasilkan sampel menggunakan θ^(D) sebagai gantinya.

Alternatif, disebut bootstrap non-parametrik , adalah untuk mengambil sampel (dengan penggantian) dari data asli , dan kemudian menghitung distribusi yang diinduksi seperti sebelumnya. Beberapa metode untuk mempercepat bootstrap ketika diterapkan pada set data besar dibahas dalam (Kleiner et al. 2011).xisD

  • 1 . Teks itu mengatakan:

    Jika kami mengetahui parameter sebenarnya ... kami dapat menghitung estimator kami dari setiap sampel,θθs^ ...

        tapi mengapa saya menggunakan estimator masing-masing sampel jika saya sudah tahu parameter sebenarnyaθ ?

  • 2 . Juga, apa perbedaan di sini antara distribusi empiris dan distribusi sampling?

  • 3 . Akhirnya, saya tidak begitu mengerti perbedaan antara bootstrap parametrik dan non-parametrik dari teks ini. Mereka berdua menyimpulkan dari himpunan pengamatan , tetapi apa bedanya?θD

Amelio Vazquez-Reina
sumber

Jawaban:

14

Jawaban yang diberikan oleh miura tidak sepenuhnya akurat jadi saya menjawab pertanyaan lama untuk anak cucu:

(2) Ini adalah hal yang sangat berbeda. Cdf empiris adalah perkiraan CDF (distribusi) yang menghasilkan data. Tepatnya, itu adalah CDF diskrit yang menetapkan probabilitas untuk setiap titik data yang diamati, , untuk setiap . Pengukur ini konvergen ke true cdf: hampir pasti untuk setiap1/nx F (x)F(x)=P(Xix)xF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x (sebenarnya seragam).

Distribusi sampling dari statistik bukan distribusi statistik yang Anda harapkan untuk dilihat di bawah eksperimen berulang. Yaitu, Anda melakukan percobaan sekali dan mengumpulkan data X 1 , , X n . T adalah fungsi dari data Anda: T = T ( X 1 , ... , X n ) . Sekarang, anggaplah Anda mengulang percobaan, dan mengumpulkan data X 1 , , X n . Menghitung ulang T pada sampel baru menghasilkan T =TX1,,XnTT=T(X1,,Xn)X1,,Xn . Jika kita mengumpulkan 100 sampel kita akan memiliki 100 perkiraan T . Pengamatan ini dari T membentuk distribusi sampling dari T . Itu adalah distribusi yang benar. Karena jumlah percobaan menjadi tak terhingga rata-rata konvergennya menjadi E ( T ) dan variansnya menjadi V a r ( T )T=T(X1,,Xn)TTTE(T)Var(T) .

Secara umum tentu kita tidak percobaan berulang seperti ini, kami hanya pernah melihat satu contoh dari . Mencari tahu varian T dari pengamatan tunggal sangat sulit jika Anda tidak tahu fungsi probabilitas yang mendasari T a priori. Bootstrap adalah cara untuk memperkirakan distribusi pengambilan sampel T dengan secara artifisial menjalankan "eksperimen baru" untuk menghitung instance T yang baru . Setiap sampel baru sebenarnya hanya sampel ulang dari data asli. Bahwa ini memberi Anda informasi lebih banyak daripada yang Anda miliki dalam data asli itu misterius dan benar-benar hebat.TTTTT

(1) Anda benar - Anda tidak akan melakukan ini. Penulis mencoba untuk memotivasi bootstrap parametrik dengan menggambarkannya sebagai melakukan "apa yang akan Anda lakukan jika Anda tahu distribusi" tetapi mengganti penaksir yang sangat baik dari fungsi distribusi - cdf empiris.

Misalnya, misalkan Anda tahu bahwa statistik uji terdistribusi normal dengan rata-rata nol, varian satu. Bagaimana Anda memperkirakan distribusi sampling T ? Nah, karena Anda tahu distribusinya, cara konyol dan berlebihan untuk memperkirakan distribusi sampling adalah dengan menggunakan R untuk menghasilkan 10.000 atau lebih standar variabel acak normal, lalu ambil sampel rata-rata dan variansnya, dan gunakan ini sebagai estimasi rata-rata dan varians dari distribusi sampling dari T .TTT

Jika kita tidak mengetahui apriori parameter , tetapi kita tahu bahwa itu terdistribusi secara normal, yang bisa kita lakukan adalah menghasilkan 10.000 atau lebih sampel dari cdf empiris, menghitung T pada masing-masing, kemudian mengambil sampel rata-rata dan varians ini 10.000 T s, dan menggunakannya sebagai perkiraan kami dari nilai yang diharapkan dan varians dari T . Karena cdf empiris adalah penaksir yang baik dari cdf yang sebenarnya, parameter sampel harus menyatu dengan parameter yang benar. Ini adalah bootstrap parametrik: Anda menempatkan model pada statistik yang ingin Anda perkirakan. Model diindeks oleh parameter, misalnya ( μ , σ )TTTT(μ,σ), yang Anda perkirakan dari pengambilan sampel berulang dari ecdf.

(3) Bootstrap nonparametrik bahkan tidak mengharuskan Anda untuk mengetahui apriori bahwa terdistribusi secara normal. Sebagai gantinya, Anda cukup menggambar sampel berulang dari ecdf, dan menghitung T pada masing-masing sampel . Setelah Anda menggambar 10.000 sampel dan menghitung 10.000 T , Anda dapat memetakan histogram perkiraan Anda. Ini adalah visualisasi dari distribusi sampling TTTTT. Bootstrap nonparametrik tidak akan memberi tahu Anda bahwa distribusi pengambilan sampel adalah normal, atau gamma, atau sebagainya, tetapi memungkinkan Anda untuk memperkirakan distribusi pengambilan sampel (biasanya) setepat yang diperlukan. Itu membuat lebih sedikit asumsi dan memberikan informasi lebih sedikit daripada bootstrap parametrik. Itu kurang tepat ketika asumsi parametrik benar tetapi lebih akurat ketika itu salah. Yang mana yang Anda gunakan dalam setiap situasi yang Anda hadapi sepenuhnya bergantung pada konteks. Memang lebih banyak orang yang akrab dengan bootstrap nonparametrik tetapi seringkali asumsi parametrik yang lemah membuat model yang benar-benar sulit untuk menerima estimasi, yang indah.

tamu47
sumber
1
Saya bingung dengan deskripsi Anda tentang bootstrap parametrik "yang dapat kami lakukan adalah menghasilkan 10.000 atau lebih sampel dari cdf empiris" Pemahaman saya tentang bootstrap parametrik adalah bahwa Anda akan mengambil sampel dari model yang sesuai dengan data. Inilah yang digambarkan oleh kutipan asli dari buku Murphy. Saya bisa salah membaca, tetapi pengambilan sampel dari CDF empiris data akan langsung mengambil sampel titik data, yang akan menjadi bootstrap standar, bukan?
user20160
@ user20160 Anda salah mengartikan jawaban "Sebaliknya": ia menjelaskan bootstrap nonparametrik, bukan yang parametrik.
daknowles
4

Saya sangat menghargai upaya yang disumbangkan oleh guest47, tetapi saya tidak setuju dengan jawabannya, dalam beberapa aspek kecil. Saya tidak akan secara langsung mengajukan ketidaksepakatan saya, melainkan mencerminkannya dalam jawaban ini.

  1. Dalam banyak kasus, itu adalah berlebihan untuk menghitung θ s ketika kita sudah tahu benar mendasari parameter θ * . Namun, itu masih berguna ketika kita ingin melihat akurasi dan presisi dari θ s di estimasi θ * . Selain itu, paragraf pertama dalam kutipan Anda akan memudahkan Anda untuk memahami pengertian "bootstrap parametrik", yang akan saya sentuh setelahnya.θ^sθθ^sθ

  2. Guest47 memberikan jawaban yang bagus Tidak perlu dijabarkan lebih lanjut.

  3. Dalam bootstrap parametrik, apa yang Anda miliki adalah data yang diamati D. Anda datang dengan model parametrik untuk menyesuaikan data, dan penggunaan estimator θ (yang merupakan fungsi data D) untuk parameter benar θ * . Kemudian Anda menghasilkan ribuan dataset dari model parametrik dengan θ , dan memperkirakan θ s untuk model ini. Dalam bootstrap nonparametrik, Anda langsung menggunakan D, sampel (untuk ribuan kali) tepat dari D, bukan dari data yang dihasilkan. θ^θθ^θ^s

QINGYUAN FENG
sumber
2

Saya bukan ahli, tetapi untuk apa nilainya:

  1. Karena Anda tertarik pada distribusi sampling, seperti yang disebutkan dalam kalimat pertama kutipan Anda.

  2. Distribusi empiris adalah distribusi yang Anda lihat dalam jumlah sampel terbatas Anda. Distribusi sampling adalah apa yang akan Anda lihat seandainya Anda mengambil jumlah sampel yang tak terbatas.

Saya tidak bisa menjawab 3. Saya selalu mengerti apa yang digambarkan di sini sebagai bootstrap nonparametrik sebagai "the" bootstrap.

Jika Anda belum sepenuhnya memahami konsep distribusi sampling, ada utas yang sangat bagus di sini yang menampilkan kode R yang sangat ilustratif.

miura
sumber
5
Perbedaan antara bootstrap parametrik dan nonparametrik adalah bahwa yang pertama menghasilkan sampelnya dari (diasumsikan) distribusi data, menggunakan nilai parameter yang diestimasi, sedangkan yang terakhir menghasilkan sampel dengan pengambilan sampel dengan penggantian dari data yang diamati - tidak ada model parametrik yang diasumsikan .
jbowman
@jbowman - bootstrap "non-parametrik" memang memiliki model yang mendasarinya - hanya saja itu adalah model yang berbeda dengan yang digunakan untuk memotivasi estimasi parameter.
probabilityislogic
@miura Tolong jangan merusak jawaban Anda. Jika Anda ingin penanya memilih jawaban yang berbeda, beri komentar di bawah pertanyaan. Jika Anda ingin jawaban Anda dihapus, beri tanda dan tanyakan.
Glen_b -Reinstate Monica