Pro dan kontra dari bootstrap

11

Saya baru saja belajar tentang konsep bootstrap, dan sebuah pertanyaan naif muncul di benak: Jika kita selalu dapat menghasilkan banyak sampel bootstrap dari data kita, mengapa repot-repot mendapatkan lebih banyak data "nyata" sama sekali?

Saya pikir saya punya penjelasan, tolong beri tahu saya jika saya benar: Saya pikir proses bootstrap mengurangi varians, TETAPI jika dataset asli saya BIASED, daripada saya terjebak dengan varian rendah dan bias tinggi, tidak peduli berapa banyak replika Saya mengambil.

Noale
sumber
4
bootstrapping tidak membuat lebih banyak informasi daripada yang sudah ada dalam data (dan model) ... data aktual dapat memberi Anda lebih banyak informasi
Glen_b -Reinstate Monica
2
Saya setuju dengan Glen_b bahwa itu tidak membuat lebih banyak informasi tetapi saya tidak setuju bahwa itu dapat memberi Anda lebih sedikit informasi. Seperti yang saya katakan dalam jawaban saya itu tidak selalu berfungsi dengan baik tetapi dapat dikatakan metode statistik apa pun.
Michael R. Chernick
1
Pertanyaan menarik - mungkin konsep terkait adalah mengapa bootstrap bekerja? . Memahami ini akan membantu untuk mengetahui kapan itu berguna. Saya menganggap bootstrap sebagai peningkatan dari perkiraan normal untuk distribusi sampling. Ini dapat menangani penyimpangan dari normalitas yang tidak terlalu ekstrim. Ini fitur menarik lainnya adalah Anda tidak perlu melakukan pekerjaan analitik / aljabar - replikasi melakukan ini untuk Anda.
probabilityislogic

Jawaban:

15

Bootstrap adalah metode melakukan inferensi dengan cara yang tidak memerlukan asumsi bentuk parametrik untuk distribusi populasi. Itu tidak memperlakukan sampel asli seolah-olah itu adalah populasi bahkan yang melibatkan pengambilan sampel dengan penggantian dari sampel asli. Diasumsikan bahwa pengambilan sampel dengan penggantian dari sampel asli ukuran n meniru mengambil sampel ukuran n dari populasi yang lebih besar. Ini juga memiliki banyak varian seperti m keluar dari n bootstrap yang sampel ulang m waktu dari sampel ukuran n di mana m <n. Properti bagus dari bootstrap tergantung pada teori asimptotik. Seperti yang disebutkan orang lain, bootstrap tidak mengandung informasi lebih banyak tentang populasi daripada apa yang diberikan dalam sampel asli. Untuk alasan itu kadang-kadang tidak berfungsi dengan baik dalam sampel kecil.

Dalam buku saya "Metode Bootstrap: Panduan Praktisi" edisi kedua yang diterbitkan oleh Wiley pada tahun 2007, saya menunjukkan situasi di mana bootstrap dapat gagal. Ini termasuk distribusi yang tidak memiliki momen terbatas, ukuran sampel kecil, memperkirakan nilai ekstrim dari distribusi dan memperkirakan varians dalam sampel survei di mana ukuran populasi adalah N dan sampel besar n diambil. Dalam beberapa kasus varian bootstrap dapat bekerja lebih baik daripada pendekatan aslinya. Hal ini terjadi dengan jumlah bootstrap yang keluar di beberapa aplikasi. Dalam hal memperkirakan tingkat kesalahan dalam analisis diskriminan, bootstrap 632 merupakan peningkatan dari metode lain termasuk metode bootstrap lainnya.

Alasan menggunakannya adalah bahwa kadang-kadang Anda tidak dapat mengandalkan asumsi parametrik dan dalam beberapa situasi bootstrap berfungsi lebih baik daripada metode non-parametrik lainnya. Ini dapat diterapkan pada berbagai masalah termasuk regresi nonlinier, klasifikasi, estimasi interval kepercayaan, estimasi bias, penyesuaian nilai-p dan analisis deret waktu.

Michael R. Chernick
sumber
6

Sampel bootstrap hanya dapat memberi tahu Anda hal-hal tentang sampel asli, dan tidak akan memberi Anda informasi baru tentang populasi sebenarnya. Ini hanyalah metode nonparametrik untuk membangun interval kepercayaan dan sejenisnya.

Jika Anda ingin mendapatkan lebih banyak informasi tentang populasi, Anda harus mengumpulkan lebih banyak data dari populasi.

Einar
sumber