Bootstrapping adalah setiap tes atau metrik yang bergantung pada pengambilan sampel acak dengan penggantian. Ini adalah metode yang membantu dalam banyak situasi seperti validasi kinerja model prediktif, metode ensemble, estimasi bias dan varians dari parameter model dll. Ia bekerja dengan melakukan pengambilan sampel dengan penggantian dari dataset asli, dan pada saat yang sama mengasumsikan bahwa titik data yang belum dipilih adalah dataset uji. Kami dapat mengulangi prosedur ini beberapa kali dan menghitung skor rata-rata sebagai estimasi kinerja model kami. Selain itu, Bootstrapping terkait dengan metode pelatihan ensemble, karena kita dapat membangun model menggunakan setiap set data bootstrap dan "tas" model-model ini dalam sebuah ensemble menggunakan voting mayoritas (untuk klasifikasi) atau menghitung rata-rata (untuk prediksi numerik) untuk semua model-model ini sebagai hasil akhir kami.
Validasi silang adalah prosedur untuk memvalidasi kinerja model, dan itu dilakukan dengan membagi data pelatihan menjadi bagian k. Kami berasumsi bahwa bagian k-1 adalah set pelatihan dan menggunakan bagian lain adalah set tes kami. Kita dapat mengulangi bahwa k kali berbeda memegang bagian data yang berbeda setiap kali. Akhirnya, kami mengambil rata-rata skor k sebagai estimasi kinerja kami. Validasi silang dapat mengalami bias atau varians. Meningkatkan jumlah pemisahan, varians akan meningkat juga dan bias akan berkurang. Di sisi lain, jika kita mengurangi jumlah pemisahan, bias akan meningkat dan varians akan berkurang.
Singkatnya, validasi silang membagi dataset yang tersedia untuk membuat beberapa dataset, dan metode Bootstrapping menggunakan dataset asli untuk membuat beberapa dataset setelah melakukan resampling dengan penggantian. Bootstrap tidak sekuat validasi silang ketika digunakan untuk validasi model. Bootstrap lebih lanjut tentang membangun model ensemble atau hanya memperkirakan parameter.
Christos Karatsalos
sumber
sumber