Saya rasa saya mengerti bagaimana dasar-dasar bootstrap bekerja, tapi saya tidak yakin saya mengerti bagaimana saya bisa menggunakan bootstrap untuk pemilihan model atau untuk menghindari overfitting.
Untuk pemilihan model, misalnya, apakah Anda hanya memilih model yang menghasilkan kesalahan terendah (mungkin varians?) Di seluruh sampel bootstrapnya?
Apakah ada teks yang membahas cara menggunakan bootstrap untuk pemilihan atau validasi model?
EDIT: Lihat utas ini , dan jawabannya oleh @ mark999 untuk lebih banyak konteks di balik pertanyaan ini.
model-selection
cross-validation
bootstrap
Amelio Vazquez-Reina
sumber
sumber
Jawaban:
Pertama, Anda harus memutuskan apakah Anda benar-benar membutuhkan pemilihan model, atau Anda hanya perlu membuat model. Dalam sebagian besar situasi, tergantung pada dimensi, pemasangan model komprehensif yang fleksibel lebih disukai.
Bootstrap adalah cara yang bagus untuk memperkirakan kinerja suatu model. Hal paling sederhana untuk diperkirakan adalah varians. Lebih ke titik awal Anda, bootstrap dapat memperkirakan kemungkinan kinerja prosedur pemodelan yang akan datang, pada data baru yang belum direalisasikan.
Jika menggunakan resampling (bootstrap atau cross-validation) untuk memilih parameter tuning model dan untuk memperkirakan model, Anda akan membutuhkan bootstrap ganda atau validasi silang bersarang.
Secara umum bootstrap membutuhkan lebih sedikit model yang cocok (seringkali sekitar 300) dari cross-validation (10-fold cross-validation harus diulang 50-100 kali untuk stabilitas).
Beberapa studi simulasi dapat ditemukan di http://biostat.mc.vanderbilt.edu/rms
sumber
Pertimbangkan untuk menggunakan bootstrap untuk rata-rata model .
Makalah di bawah ini dapat membantu, karena membandingkan model bootstrap rata-rata pendekatan (yang lebih umum digunakan?) Bayesian pemodelan rata-rata, dan menjabarkan resep untuk melakukan model rata-rata.
Model bootstrap rata-rata dalam studi seri waktu tentang polusi udara dan kematian partikel
sumber