Saat menggunakan bootstrap untuk evaluasi model, saya selalu berpikir sampel out-of-bag langsung digunakan sebagai set tes. Namun, ini tampaknya tidak menjadi kasus untuk pendekatan scikit-learning yang sudah ketinggalan zamanBootstrap
, yang tampaknya membangun set tes dari menggambar dengan penggantian dari subset data out-of-bag. Apa alasan statistik di balik ini? Adakah skenario khusus di mana teknik ini lebih baik daripada hanya mengevaluasi sampel yang diambil sendiri atau sebaliknya?
15
Jawaban:
Sampel bootstrap digunakan untuk mengevaluasi kinerja algoritma oleh banyak iterasi. Saat melakukannya, kinerja pada set yang diubah secara acak dievaluasi.
Sebaliknya saat melakukan, misalnya 10 Validasi Silang Lipat, Anda hanya melakukan 10 iterasi pada rangkaian data tes dan kereta yang berbeda.
Tautan yang Anda kirim sudah rusak, jadi saya menambahkan deskripsi fungsi di versi sklearn saat ini (0,14)
Deskripsi metode
sumber
Mungkin Anda tertarik pada sesuatu. Tampaknya orang lain ditarik di thread yang sama dan
Bootstrap
itu usang dalam mendukung lebih disengaja menggunakanresample
metode dengan mencoba dan benarsklearn.cross_validation
pendekatan sepertiStratifiedKFold
.sumber