Jawaban yang diberikan oleh miura tidak sepenuhnya akurat jadi saya menjawab pertanyaan lama untuk anak cucu:
(2) Ini adalah hal yang sangat berbeda. Cdf empiris adalah perkiraan CDF (distribusi) yang menghasilkan data. Tepatnya, itu adalah CDF diskrit yang menetapkan probabilitas untuk setiap titik data yang diamati, , untuk setiap . Pengukur ini konvergen ke true cdf: hampir pasti untuk setiap1/nx F (x)→F(x)=P(Xi≤x)xF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x (sebenarnya seragam).
Distribusi sampling dari statistik bukan distribusi statistik yang Anda harapkan untuk dilihat di bawah eksperimen berulang. Yaitu, Anda melakukan percobaan sekali dan mengumpulkan data X 1 , … , X n . T adalah fungsi dari data Anda: T = T ( X 1 , ... , X n ) . Sekarang, anggaplah Anda mengulang percobaan, dan mengumpulkan data X ′ 1 , … , X ′ n . Menghitung ulang T pada sampel baru menghasilkan T =TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′n . Jika kita mengumpulkan 100 sampel kita akan memiliki 100 perkiraan T . Pengamatan ini dari T membentuk distribusi sampling dari T . Itu adalah distribusi yang benar. Karena jumlah percobaan menjadi tak terhingga rata-rata konvergennya menjadi E ( T ) dan variansnya menjadi V a r ( T )T′=T(X′1,…,X′n)TTTE(T)Var(T) .
Secara umum tentu kita tidak percobaan berulang seperti ini, kami hanya pernah melihat satu contoh dari . Mencari tahu varian T dari pengamatan tunggal sangat sulit jika Anda tidak tahu fungsi probabilitas yang mendasari T a priori. Bootstrap adalah cara untuk memperkirakan distribusi pengambilan sampel T dengan secara artifisial menjalankan "eksperimen baru" untuk menghitung instance T yang baru . Setiap sampel baru sebenarnya hanya sampel ulang dari data asli. Bahwa ini memberi Anda informasi lebih banyak daripada yang Anda miliki dalam data asli itu misterius dan benar-benar hebat.TTTTT
(1) Anda benar - Anda tidak akan melakukan ini. Penulis mencoba untuk memotivasi bootstrap parametrik dengan menggambarkannya sebagai melakukan "apa yang akan Anda lakukan jika Anda tahu distribusi" tetapi mengganti penaksir yang sangat baik dari fungsi distribusi - cdf empiris.
Misalnya, misalkan Anda tahu bahwa statistik uji terdistribusi normal dengan rata-rata nol, varian satu. Bagaimana Anda memperkirakan distribusi sampling T ? Nah, karena Anda tahu distribusinya, cara konyol dan berlebihan untuk memperkirakan distribusi sampling adalah dengan menggunakan R untuk menghasilkan 10.000 atau lebih standar variabel acak normal, lalu ambil sampel rata-rata dan variansnya, dan gunakan ini sebagai estimasi rata-rata dan varians dari distribusi sampling dari T .TTT
Jika kita tidak mengetahui apriori parameter , tetapi kita tahu bahwa itu terdistribusi secara normal, yang bisa kita lakukan adalah menghasilkan 10.000 atau lebih sampel dari cdf empiris, menghitung T pada masing-masing, kemudian mengambil sampel rata-rata dan varians ini 10.000 T s, dan menggunakannya sebagai perkiraan kami dari nilai yang diharapkan dan varians dari T . Karena cdf empiris adalah penaksir yang baik dari cdf yang sebenarnya, parameter sampel harus menyatu dengan parameter yang benar. Ini adalah bootstrap parametrik: Anda menempatkan model pada statistik yang ingin Anda perkirakan. Model diindeks oleh parameter, misalnya ( μ , σ )TTTT(μ,σ), yang Anda perkirakan dari pengambilan sampel berulang dari ecdf.
(3) Bootstrap nonparametrik bahkan tidak mengharuskan Anda untuk mengetahui apriori bahwa terdistribusi secara normal. Sebagai gantinya, Anda cukup menggambar sampel berulang dari ecdf, dan menghitung T pada masing-masing sampel . Setelah Anda menggambar 10.000 sampel dan menghitung 10.000 T , Anda dapat memetakan histogram perkiraan Anda. Ini adalah visualisasi dari distribusi sampling TTTTT. Bootstrap nonparametrik tidak akan memberi tahu Anda bahwa distribusi pengambilan sampel adalah normal, atau gamma, atau sebagainya, tetapi memungkinkan Anda untuk memperkirakan distribusi pengambilan sampel (biasanya) setepat yang diperlukan. Itu membuat lebih sedikit asumsi dan memberikan informasi lebih sedikit daripada bootstrap parametrik. Itu kurang tepat ketika asumsi parametrik benar tetapi lebih akurat ketika itu salah. Yang mana yang Anda gunakan dalam setiap situasi yang Anda hadapi sepenuhnya bergantung pada konteks. Memang lebih banyak orang yang akrab dengan bootstrap nonparametrik tetapi seringkali asumsi parametrik yang lemah membuat model yang benar-benar sulit untuk menerima estimasi, yang indah.
Saya sangat menghargai upaya yang disumbangkan oleh guest47, tetapi saya tidak setuju dengan jawabannya, dalam beberapa aspek kecil. Saya tidak akan secara langsung mengajukan ketidaksepakatan saya, melainkan mencerminkannya dalam jawaban ini.
Dalam banyak kasus, itu adalah berlebihan untuk menghitung θ s ketika kita sudah tahu benar mendasari parameter θ * . Namun, itu masih berguna ketika kita ingin melihat akurasi dan presisi dari θ s di estimasi θ * . Selain itu, paragraf pertama dalam kutipan Anda akan memudahkan Anda untuk memahami pengertian "bootstrap parametrik", yang akan saya sentuh setelahnya.θ^s θ∗ θ^s θ∗
Guest47 memberikan jawaban yang bagus Tidak perlu dijabarkan lebih lanjut.
Dalam bootstrap parametrik, apa yang Anda miliki adalah data yang diamati D. Anda datang dengan model parametrik untuk menyesuaikan data, dan penggunaan estimator θ (yang merupakan fungsi data D) untuk parameter benar θ * . Kemudian Anda menghasilkan ribuan dataset dari model parametrik dengan θ , dan memperkirakan θ s untuk model ini. Dalam bootstrap nonparametrik, Anda langsung menggunakan D, sampel (untuk ribuan kali) tepat dari D, bukan dari data yang dihasilkan.θ^ θ∗ θ^ θ^s
sumber
Saya bukan ahli, tetapi untuk apa nilainya:
Karena Anda tertarik pada distribusi sampling, seperti yang disebutkan dalam kalimat pertama kutipan Anda.
Distribusi empiris adalah distribusi yang Anda lihat dalam jumlah sampel terbatas Anda. Distribusi sampling adalah apa yang akan Anda lihat seandainya Anda mengambil jumlah sampel yang tak terbatas.
Saya tidak bisa menjawab 3. Saya selalu mengerti apa yang digambarkan di sini sebagai bootstrap nonparametrik sebagai "the" bootstrap.
Jika Anda belum sepenuhnya memahami konsep distribusi sampling, ada utas yang sangat bagus di sini yang menampilkan kode R yang sangat ilustratif.
sumber