Metodologi bootstrap. Mengapa melakukan resample “dengan penggantian” alih-alih subsampling acak?

11

Metode bootstrap telah melihat difusi besar dalam beberapa tahun terakhir, saya juga banyak menggunakannya, terutama karena alasan di balik ini cukup intuitif.

Tapi itu satu hal yang saya tidak mengerti. Mengapa Efron memilih untuk melakukan resample dengan penggantian alih-alih hanya subsampling dengan secara acak memasukkan atau tidak termasuk pengamatan tunggal?

Saya pikir subsampling acak memiliki satu kualitas yang sangat baik, yang mewakili idealnya situasi kehidupan nyata di mana pengamatan yang kami miliki dalam penelitian kami adalah bagian dari populasi hipotetis. Saya tidak melihat keuntungan dari memiliki pengamatan berlipat ganda selama resampling. Dalam konteks nyata tidak ada pengamatan yang serupa dengan yang lain, terutama untuk situasi multivariat yang kompleks.

Bakaburg
sumber
3
resampling dengan resampling dilakukan karena itu adalah hal yang benar untuk dilakukan, mengingat model. Model di balik bootstrap adalah menggunakan kemungkinan maksimum nonparametrik untuk memperkirakan fungsi distribusi kumulatif, kemudian mengambil sampel pengamatan independen dari fungsi distribusi kumulatif yang diestimasi. Pikirkan tentang hal ini --- secara algoritmik, yang diperoleh dengan pengambilan sampel dengan penggantian dari sampel asli.
kjetil b halvorsen

Jawaban:

10

Salah satu cara untuk memahami pilihan ini adalah dengan menganggap sampel yang ada sebagai representasi terbaik yang Anda miliki dari populasi yang mendasarinya. Anda mungkin tidak memiliki seluruh populasi untuk diambil sampel dari yang lain, tetapi Anda memang memiliki perwakilan populasi yang khusus ini. Sampel ulang yang benar-benar acak dari representasi populasi ini berarti bahwa Anda harus sampel dengan penggantian, jika tidak, pengambilan sampel Anda nanti akan tergantung pada hasil pengambilan sampel awal Anda. Kehadiran kasus berulang dalam sampel bootstrap tertentu mewakili anggota populasi yang mendasari yang memiliki karakteristik yang dekat dengan orang-orang dari kasus berulang tersebut. Pendekatan Leave-one-out atau leave-some-out, seperti yang Anda sarankan, juga dapat digunakan tapi itu validasi silang daripada bootstrap.

Saya pikir ini cukup banyak hanya dengan kata lain komentar dari @kjetil_b_halvorsen

EdM
sumber
Saya mengerti maksudnya. Membuat pengamatan individu dalam sampel bootstrap independen satu sama lain. Dalam literatur memang ada metode berdasarkan subsampling, lihat Politis, Romano, Wolf. Penggunaan subset tetap dari n, dipilih tanpa penggantian. Bagaimana mereka menghindari perangkap yang Anda katakan sebelumnya? Dalam kasus mereka lagi saya tidak mengerti mengapa mereka menggunakan subsampel ukuran tetap, bukan subsampel acak.
Bakaburg
2
Metode subsampling mencoba menyelesaikan sesuatu yang berbeda dari bootstrap. Metode-metode itu mencari untuk memilih himpunan bagian acak dari sampel data daripada mencoba meniru sampel acak baru dari populasi yang mendasarinya . Bukannya salah satu dari yang lain salah; mereka adalah pendekatan berbeda yang memiliki kekuatan dan kelemahan tertentu.
EdM
Jadi mungkin saya harus mengajukan pertanyaan baru mengenai perbedaan antara dua metode dalam statistik inferensi. Terima kasih!
Bakaburg
@ Bakakurg melihat pertanyaan ini untuk pengantar yang luar biasa ke dalam literatur tentang bootstrap versus cross-validation (yang merupakan jenis subsampling tertentu).
EdM
@ Bakakurg Metode bootstrap mensimulasikan gambar independen berulang sampel acak ukuran n (bukan subset lebih kecil dari n) dari populasi yang lebih besar. Ini berarti bahwa sampel acak akan mengandung sejumlah besar nilai ekstrim kecil atau besar dari populasi induk yang sering kurang terwakili dalam sampel asli kami. Seperti yang ditunjukkan EdM, resampling dengan penggantian memungkinkan pengamatan sampel tunggal untuk "mewakili" beberapa pengamatan dalam populasi yang memiliki nilai yang sama - ini adalah cara untuk mendapatkan perkiraan yang mulus dari distribusi populasi.
RobertF