Saya punya pertanyaan tentang proses validasi silang. Saya berada di tengah-tengah kursus Pembelajaran Mesin di Cursera. Salah satu topiknya adalah tentang validasi silang. Saya merasa agak sulit untuk diikuti. Saya tahu mengapa kami membutuhkan CV karena kami ingin model kami bekerja dengan baik pada data (tidak diketahui) di masa depan dan CV mencegah overfitting. Namun, prosesnya sendiri membingungkan.
Apa yang saya pahami adalah bahwa saya membagi data menjadi 3 himpunan bagian: pelatihan, validasi, dan tes. Train and Validation adalah untuk menemukan kompleksitas model yang optimal. Yang tidak saya mengerti adalah bagian ketiga. Saya mengerti saya mengambil sejumlah fitur untuk model, melatihnya dan memvalidasinya pada subset Validasi dan mencari Fungsi Biaya minimum ketika saya mengubah struktur. Ketika saya menemukannya, saya menguji model pada bagian Tes. Jika saya telah menemukan Fungsi Biaya minimum pada subset Validasi, mengapa saya perlu mengujinya lagi pada subset Tes ???
Bisakah seseorang tolong menjelaskan ini untuk saya?
Terima kasih
Jawaban:
sumber
Karena kesalahan acak: Biasanya Anda hanya memiliki jumlah kasus yang terbatas.
Optimalisasi kinerja validasi (pengujian dalam) berarti bahwa Anda mungkin overfitting ke set pengujian dalam tersebut. Set tes dalam berkontribusi pada estimasi model akhir dan dengan demikian tidak terlepas dari model.
Ini berarti bahwa Anda perlu memiliki set uji (luar) lain yang tidak tergantung pada keseluruhan prosedur pemodelan (termasuk semua proses pra-pemrosesan optimasi atau data-driven atau pemilihan model) jika Anda ingin memperkirakan properti generalisasi.
Saya menyarankan Anda membuat simulasi dan membandingkan tiga perkiraan kesalahan berbeda yang dapat Anda miliki
mengukur good -of-fit
Dalam simulasi, Anda dapat dengan mudah membandingkannya dengan set tes yang tepat, besar, dan dihasilkan secara independen. Jika set-up benar, tes luar harus tidak bias (wrt model pengganti yang dievaluasi, bukan wrt model "final" yang dibangun di seluruh set data). Tes dalam biasanya bias optimis, dan penggantian bahkan lebih optimis bias.
Di bidang saya, pengujian dalam akan mudah meremehkan kesalahan generalisasi dengan faktor 2 - 5 (lebih banyak untuk skema optimasi yang agresif).
Catatan: nomenklatur set tidak universal. Dalam bidang saya (kimia analitik), validasi biasanya berarti bukti kinerja prosedur akhir - dengan demikian lebih banyak yang dilakukan oleh set "tes" Anda daripada apa yang set "validasi" Anda lakukan.
Karena itu saya lebih suka berbicara tentang set tes dalam dan luar, atau set tes optimasi (= set tes dalam) dan kemudian set validasi akan berarti set tes luar.
sumber
Saat melatih model, seseorang harus memilih parameter meta untuk model (misalnya, parameter regularisasi) atau bahkan memilih dari beberapa model. Dalam hal ini, subset validasi digunakan untuk pemilihan parameter, tetapi uji subset untuk estimasi prediksi akhir.
sumber