Saya baru saja belajar tentang konsep bootstrap, dan sebuah pertanyaan naif muncul di benak: Jika kita selalu dapat menghasilkan banyak sampel bootstrap dari data kita, mengapa repot-repot mendapatkan lebih banyak data "nyata" sama sekali?
Saya pikir saya punya penjelasan, tolong beri tahu saya jika saya benar: Saya pikir proses bootstrap mengurangi varians, TETAPI jika dataset asli saya BIASED, daripada saya terjebak dengan varian rendah dan bias tinggi, tidak peduli berapa banyak replika Saya mengambil.
Jawaban:
Bootstrap adalah metode melakukan inferensi dengan cara yang tidak memerlukan asumsi bentuk parametrik untuk distribusi populasi. Itu tidak memperlakukan sampel asli seolah-olah itu adalah populasi bahkan yang melibatkan pengambilan sampel dengan penggantian dari sampel asli. Diasumsikan bahwa pengambilan sampel dengan penggantian dari sampel asli ukuran n meniru mengambil sampel ukuran n dari populasi yang lebih besar. Ini juga memiliki banyak varian seperti m keluar dari n bootstrap yang sampel ulang m waktu dari sampel ukuran n di mana m <n. Properti bagus dari bootstrap tergantung pada teori asimptotik. Seperti yang disebutkan orang lain, bootstrap tidak mengandung informasi lebih banyak tentang populasi daripada apa yang diberikan dalam sampel asli. Untuk alasan itu kadang-kadang tidak berfungsi dengan baik dalam sampel kecil.
Dalam buku saya "Metode Bootstrap: Panduan Praktisi" edisi kedua yang diterbitkan oleh Wiley pada tahun 2007, saya menunjukkan situasi di mana bootstrap dapat gagal. Ini termasuk distribusi yang tidak memiliki momen terbatas, ukuran sampel kecil, memperkirakan nilai ekstrim dari distribusi dan memperkirakan varians dalam sampel survei di mana ukuran populasi adalah N dan sampel besar n diambil. Dalam beberapa kasus varian bootstrap dapat bekerja lebih baik daripada pendekatan aslinya. Hal ini terjadi dengan jumlah bootstrap yang keluar di beberapa aplikasi. Dalam hal memperkirakan tingkat kesalahan dalam analisis diskriminan, bootstrap 632 merupakan peningkatan dari metode lain termasuk metode bootstrap lainnya.
Alasan menggunakannya adalah bahwa kadang-kadang Anda tidak dapat mengandalkan asumsi parametrik dan dalam beberapa situasi bootstrap berfungsi lebih baik daripada metode non-parametrik lainnya. Ini dapat diterapkan pada berbagai masalah termasuk regresi nonlinier, klasifikasi, estimasi interval kepercayaan, estimasi bias, penyesuaian nilai-p dan analisis deret waktu.
sumber
Sampel bootstrap hanya dapat memberi tahu Anda hal-hal tentang sampel asli, dan tidak akan memberi Anda informasi baru tentang populasi sebenarnya. Ini hanyalah metode nonparametrik untuk membangun interval kepercayaan dan sejenisnya.
Jika Anda ingin mendapatkan lebih banyak informasi tentang populasi, Anda harus mengumpulkan lebih banyak data dari populasi.
sumber