Misalkan saya melatih beberapa model pada set pelatihan, pilih yang terbaik menggunakan set validasi silang dan kinerja yang diukur pada set tes. Jadi sekarang saya punya satu model terbaik akhir. Haruskah saya melatihnya pada semua data saya yang tersedia atau solusi pengiriman yang hanya dilatih pada set pelatihan? Jika yang terakhir, lalu mengapa?
UPDATE: Seperti yang dicatat @ P.Windridge, pengiriman model yang dilatih ulang pada dasarnya berarti pengiriman model tanpa validasi. Tetapi kami dapat melaporkan kinerja uji set dan setelah itu melatih kembali model pada data lengkap dengan benar mengharapkan kinerja menjadi lebih baik - karena kami menggunakan model terbaik kami ditambah lebih banyak data. Masalah apa yang bisa muncul dari metodologi seperti itu?
Jawaban:
Anda hampir selalu mendapatkan model yang lebih baik setelah melakukan refitting pada seluruh sampel. Tetapi seperti yang orang lain katakan Anda tidak memiliki validasi. Ini adalah kelemahan mendasar dalam pendekatan pemisahan data. Tidak hanya pemisahan data kesempatan yang hilang untuk secara langsung memodelkan perbedaan sampel dalam model keseluruhan, tetapi itu tidak stabil kecuali seluruh sampel Anda mungkin lebih besar dari 15.000 subjek. Inilah sebabnya mengapa 100 pengulangan validasi silang 10 kali lipat diperlukan (tergantung pada ukuran sampel) untuk mencapai presisi dan stabilitas, dan mengapa bootstrap untuk validasi internal yang kuat bahkan lebih baik. Bootstrap juga memperlihatkan betapa sulit dan sewenang-wenang tugas pemilihan fitur.
Saya telah menjelaskan masalah dengan validasi 'eksternal' secara lebih rinci di Bagian Biostatistik dalam Penelitian Biomedis 10.11.
sumber
Anda tidak perlu berlatih lagi. Ketika Anda melaporkan hasil Anda, Anda selalu melaporkan hasil data pengujian karena mereka memberikan pemahaman yang jauh lebih baik. Dengan set data uji, kita dapat lebih akurat melihat seberapa baik kinerja suatu model pada data out-of-sample.
sumber