Metode bootstrap telah melihat difusi besar dalam beberapa tahun terakhir, saya juga banyak menggunakannya, terutama karena alasan di balik ini cukup intuitif.
Tapi itu satu hal yang saya tidak mengerti. Mengapa Efron memilih untuk melakukan resample dengan penggantian alih-alih hanya subsampling dengan secara acak memasukkan atau tidak termasuk pengamatan tunggal?
Saya pikir subsampling acak memiliki satu kualitas yang sangat baik, yang mewakili idealnya situasi kehidupan nyata di mana pengamatan yang kami miliki dalam penelitian kami adalah bagian dari populasi hipotetis. Saya tidak melihat keuntungan dari memiliki pengamatan berlipat ganda selama resampling. Dalam konteks nyata tidak ada pengamatan yang serupa dengan yang lain, terutama untuk situasi multivariat yang kompleks.
sumber
Jawaban:
Salah satu cara untuk memahami pilihan ini adalah dengan menganggap sampel yang ada sebagai representasi terbaik yang Anda miliki dari populasi yang mendasarinya. Anda mungkin tidak memiliki seluruh populasi untuk diambil sampel dari yang lain, tetapi Anda memang memiliki perwakilan populasi yang khusus ini. Sampel ulang yang benar-benar acak dari representasi populasi ini berarti bahwa Anda harus sampel dengan penggantian, jika tidak, pengambilan sampel Anda nanti akan tergantung pada hasil pengambilan sampel awal Anda. Kehadiran kasus berulang dalam sampel bootstrap tertentu mewakili anggota populasi yang mendasari yang memiliki karakteristik yang dekat dengan orang-orang dari kasus berulang tersebut. Pendekatan Leave-one-out atau leave-some-out, seperti yang Anda sarankan, juga dapat digunakan tapi itu validasi silang daripada bootstrap.
Saya pikir ini cukup banyak hanya dengan kata lain komentar dari @kjetil_b_halvorsen
sumber