Haruskah model akhir (siap produksi) dilatih tentang data lengkap atau hanya pada set pelatihan?

23

Misalkan saya melatih beberapa model pada set pelatihan, pilih yang terbaik menggunakan set validasi silang dan kinerja yang diukur pada set tes. Jadi sekarang saya punya satu model terbaik akhir. Haruskah saya melatihnya pada semua data saya yang tersedia atau solusi pengiriman yang hanya dilatih pada set pelatihan? Jika yang terakhir, lalu mengapa?

UPDATE: Seperti yang dicatat @ P.Windridge, pengiriman model yang dilatih ulang pada dasarnya berarti pengiriman model tanpa validasi. Tetapi kami dapat melaporkan kinerja uji set dan setelah itu melatih kembali model pada data lengkap dengan benar mengharapkan kinerja menjadi lebih baik - karena kami menggunakan model terbaik kami ditambah lebih banyak data. Masalah apa yang bisa muncul dari metodologi seperti itu?

Yurii
sumber
Apakah Anda bekerja di lingkungan yang diatur secara eksternal? (mis. mungkin Anda harus mengirimkan model yang divalidasi, dan pertanyaan Anda hanya bersifat hipotesis, tapi tetap saja layak untuk dibahas :)). Sunting: ok saya melihat Anda mengedit posting Anda.
P.Windridge
Apakah Anda percaya bahwa data pengujian Anda mewakili populasi / mencakup sebagian populasi yang tidak ada dalam sampel pengembang? Apakah sampel pengembangan asli Anda kurang dalam beberapa hal?
P.Windridge
@ P. Yah, baiklah, pertanyaan saya hanya hipotesis. Tentang komentar kedua Anda, saya yakin tidak seorang pun akan mengharapkan seorang insinyur untuk melatih model yang baik sambil memberinya data yang tidak representatif.
Yurii
1
Saya tidak bisa membayangkan banyak situasi di mana Anda akan mengirimkan model tanpa validasi. Saya lebih suka melihat penurunan ukuran sampel uji (subjek masih cukup besar untuk divalidasi!). Diskusi yang mungkin lebih menarik adalah tentang pro / kontra dari / pemilihan / model berdasarkan / semua / data, dan kemudian melatihnya menggunakan sub-sampel, dan kemudian memvalidasi sisanya.
P.Windridge
1
Pertanyaan serupa = stats.stackexchange.com/questions/174026/… , meskipun saya pikir itu bisa menggunakan lebih banyak diskusi
P.Windridge

Jawaban:

15

Anda hampir selalu mendapatkan model yang lebih baik setelah melakukan refitting pada seluruh sampel. Tetapi seperti yang orang lain katakan Anda tidak memiliki validasi. Ini adalah kelemahan mendasar dalam pendekatan pemisahan data. Tidak hanya pemisahan data kesempatan yang hilang untuk secara langsung memodelkan perbedaan sampel dalam model keseluruhan, tetapi itu tidak stabil kecuali seluruh sampel Anda mungkin lebih besar dari 15.000 subjek. Inilah sebabnya mengapa 100 pengulangan validasi silang 10 kali lipat diperlukan (tergantung pada ukuran sampel) untuk mencapai presisi dan stabilitas, dan mengapa bootstrap untuk validasi internal yang kuat bahkan lebih baik. Bootstrap juga memperlihatkan betapa sulit dan sewenang-wenang tugas pemilihan fitur.

Saya telah menjelaskan masalah dengan validasi 'eksternal' secara lebih rinci di Bagian Biostatistik dalam Penelitian Biomedis 10.11.

Frank Harrell
sumber
Terminologi di bidang saya (kimia analitik) akan mempertimbangkan pemisahan data apa pun yang Anda lakukan di (sebelum) memulai pelatihan dengan sangat banyak validasi internal . Validasi eksternal akan dimulai di suatu tempat antara melakukan studi validasi khusus dan uji coba cincin.
cbeleites mendukung Monica
0

Anda tidak perlu berlatih lagi. Ketika Anda melaporkan hasil Anda, Anda selalu melaporkan hasil data pengujian karena mereka memberikan pemahaman yang jauh lebih baik. Dengan set data uji, kita dapat lebih akurat melihat seberapa baik kinerja suatu model pada data out-of-sample.

Umar
sumber
4
Kami dapat melaporkan kinerja pengujian dan setelah itu melatih kembali model pada data lengkap dengan benar mengharapkan kinerja menjadi lebih baik - karena kami menggunakan mode terbaik ditambah lebih banyak data. Apakah ada kekurangan dalam alasan saya?
Yurii
Nah jika setelah pengujian, Anda mengumpulkan lebih banyak data maka Anda dapat membagi kembali data, melatihnya kembali, kemudian menguji kembali dan kemudian melaporkan hasil tes dari pengujian ulang.
Umar
6
Dengan tidak memperkirakan keseluruhan sampel, Anda mengabaikan peluang efisiensi yang lebih tinggi. Ini tidak dibenarkan. Saya juga setuju dengan komentar Yurii di atas.
Richard Hardy
@ RichardHardy, ada apa dengan komentar saya?
Umar
Itu dijabarkan dalam komentar terakhir saya. Dengan tidak menggunakan semua data untuk memperkirakan model, Anda mengorbankan efisiensi tertinggi yang tersedia. Kenapa melakukan itu?
Richard Hardy