Saya telah melihat ke dalam paket boot di R dan sementara saya telah menemukan sejumlah primer yang bagus tentang cara menggunakannya, saya belum menemukan apa pun yang menjelaskan dengan tepat apa yang terjadi "di balik layar". Misalnya, dalam contoh ini , panduan ini menunjukkan cara menggunakan koefisien regresi standar sebagai titik awal untuk regresi bootstrap tetapi tidak menjelaskan apa yang sebenarnya dilakukan prosedur bootstrap untuk mendapatkan koefisien regresi bootstrap. Tampaknya ada semacam proses berulang yang terjadi, tetapi sepertinya saya tidak tahu persis apa yang sedang terjadi.
22
Jawaban:
Ada beberapa "rasa" atau bentuk bootstrap (misalnya non-parametrik, parametrik, resampling residu, dan banyak lagi lainnya). Bootstrap pada contoh ini disebut bootstrap non-parametrik , atau case resampling (lihat di sini , di sini , di sini dan di sini untuk aplikasi dalam regresi). Ide dasarnya adalah Anda memperlakukan sampel Anda sebagai populasi dan berulang kali mengambil sampel baru dari sana dengan penggantian . Semua pengamatan asli memiliki probabilitas yang sama untuk ditarik ke dalam sampel baru. Kemudian Anda menghitung dan menyimpan statistik yang diminati, ini mungkin berarti, median atau koefisien regresi menggunakan sampel yang baru diambil.. Ini diulangi sebanyak kali. Dalam setiap iterasi, beberapa pengamatan dari sampel asli Anda diambil beberapa kali sementara beberapa pengamatan mungkin tidak diambil sama sekali. Setelah iterasi, Anda memiliki estimasi bootstrap yang tersimpan dari statistik yang diminati (mis. Jika dan statistik yang menarik adalah mean, Anda memiliki 1000 estimasi bootstrap rata-rata). Terakhir, ringkasan statistik seperti rata-rata, median dan standar deviasi dari -estimasi bootstrap dihitung.n n n n = 1000 n
Bootstrapping sering digunakan untuk:
Ada beberapa metode untuk menghitung interval kepercayaan berdasarkan sampel bootstrap ( makalah ini memberikan penjelasan dan panduan). Salah satu metode yang sangat sederhana untuk menghitung interval kepercayaan 95% hanya menghitung persentil 2.5 dan 97.5 empiris dari sampel bootstrap (interval ini disebut interval persentil bootstrap; lihat kode di bawah). Metode interval persentil sederhana jarang digunakan dalam praktik karena ada metode yang lebih baik, seperti bootstrap bias-dikoreksi dan dipercepat (BCa). Interval BCa menyesuaikan bias dan kemiringan dalam distribusi bootstrap.
The Bias hanya diperkirakan sebagai perbedaan antara mean dari disimpan sampel bootstrap dan estimasi asli (s).n
Mari kita meniru contoh dari situs web tetapi menggunakan loop kita sendiri menggabungkan ide-ide yang telah saya uraikan di atas (menggambar berulang kali dengan penggantian):
Dan inilah tabel ringkasan kami:
Beberapa penjelasan
boot
boot
panggilan "std. Error" adalah standar deviasi dari estimasi bootstrapBandingkan dengan output dari
boot
:Bandingkan kolom "bias" dan "std. Error" dengan kolom "sd" dari tabel ringkasan kita sendiri. Interval kepercayaan-95% kami sangat mirip dengan interval kepercayaan yang dihitung dengan
boot.ci
menggunakan metode persentil (tidak semua: lihat batas bawah parameter dengan indeks 9).sumber
Anda harus fokus pada fungsi yang dilewatkan
boot
sebagai parameter "statistik" dan perhatikan bagaimana itu dibangun.Argumen "data" akan menerima seluruh kerangka data, tetapi argumen "i" akan menerima sampel indeks baris yang dihasilkan oleh "boot" dan diambil dari 1: NROW (data). Seperti yang dapat Anda lihat dari kode itu, "i" kemudian digunakan untuk membuat sampel-neo yang diteruskan ke
zeroinl
dan kemudian hanya bagian yang dipilih dari hasilnya yang dikembalikan.Mari kita bayangkan bahwa "i" adalah {1,2,3,3,3,6,7,7,10}. Fungsi "[" akan mengembalikan hanya baris-baris tersebut dengan 3 salinan baris 3 dan 2 salinan baris 7. Itu akan menjadi dasar untuk
zeroinl()
perhitungan tunggal dan kemudian koefisien akan dikembalikanboot
sebagai hasil dari replikasi proses itu. Jumlah ulangan tersebut dikendalikan oleh parameter "R".Karena hanya koefisien regresi yang dikembalikan dari
statistic
kasus ini,boot
fungsi akan mengembalikan koefisien yang terakumulasi ini sebagai nilai "t". Perbandingan lebih lanjut dapat dilakukan oleh fungsi-fungsi paket boot lain.sumber