Ajukan pertanyaan kepada ahli statistik dan jawaban mereka akan berupa "itu tergantung".
Itu tergantung . Terlepas dari jenis model (point good cbeleites!), Jumlah set point pelatihan dan jumlah prediktor? Jika model ini untuk klasifikasi, ketidakseimbangan kelas yang besar akan menyebabkan saya meningkatkan jumlah pengulangan. Juga, jika saya melakukan resampling prosedur pemilihan fitur, saya akan bias sendiri terhadap lebih banyak sampel.
Untuk setiap metode resampling yang digunakan dalam konteks ini, ingatlah bahwa (tidak seperti bootstrap klasik), Anda hanya perlu cukup iterasi untuk mendapatkan perkiraan "cukup tepat" dari rata-rata distribusi. Itu subjektif tapi jawaban apa pun akan.
Tetap dengan klasifikasi dengan dua kelas selama satu detik, misalkan Anda mengharapkan / berharap keakuratan model menjadi sekitar 0,80. Karena proses resampling mengambil sampel estimasi akurasi (katakanlah p
), kesalahan standar adalah di sqrt[p*(1-p)]/sqrt(B)
mana B
jumlah sampel . Sebab B = 10
, kesalahan standar akurasi sekitar 0,13 dan dengan B = 100
itu sekitar 0,04. Anda dapat menggunakan formula itu sebagai panduan kasar untuk kasus khusus ini.
Juga pertimbangkan bahwa, dalam contoh ini, varians dari akurasi dimaksimalkan semakin dekat Anda sampai 0,50 sehingga model yang akurat harus membutuhkan replikasi lebih sedikit karena kesalahan standar harus lebih rendah daripada model yang pembelajar lemah.
HTH,
Maks