Saat membagi data berlabel saya ke dalam set pelatihan, validasi dan tes, saya telah mendengar semuanya dari 50/25/25 hingga 85/5/10. Saya yakin ini tergantung pada bagaimana Anda akan menggunakan model Anda dan seberapa rentan overfitting algoritma pembelajaran Anda. Apakah ada cara untuk memutuskan atau semuanya dengan aturan praktis? Bahkan ELSII tampaknya tidak jelas tentang masalah ini.
machine-learning
cross-validation
Ed Baik
sumber
sumber
Jawaban:
sumber
Bergantung pada aplikasinya, Anda mungkin bisa melewati ketidakpastian, dan sebagai gantinya menggunakan bootstrap.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Pertanyaan terkait di sini. Memahami bootstrap untuk validasi dan pemilihan model
sumber
Tentu saja Anda juga harus memutuskan tentang rasio pemisahan untuk resampling (ganda) ...
Namun, resampling biasanya berfungsi untuk berbagai rasio pemisahan, jika Anda ingat
Apa yang dapat Anda lakukan jika Anda tidak yakin perlunya dilakukan resampling adalah: resample beberapa kali. Cukup sehingga Anda bisa mengukur apakah resampling itu perlu.
Dengan hasil ini, Anda dapat memutuskan apakah Anda harus menambahkan lebih banyak iterasi resampling atau apakah semuanya baik-baik saja.
sumber
Tidak ada aturan yang keras dan cepat untuk ini. Tetapi analisis empiris menunjukkan bahwa semakin banyak data pelatihan yang Anda miliki, akurasi Anda akan semakin baik. Tapi apa pun yang Anda lakukan, jangan lupa untuk menggabungkan semua data pelatihan / validasi / tes Anda dan lakukan CV 10 kali lipat saat Anda selesai. Ini memberikan wawasan yang sangat bagus tentang masalah overfit / pakaian dalam selama percobaan Anda.
sumber
Saya pikir itu semua masalah pertanyaan yang Anda coba jawab. Apakah Anda tertarik pada pandangan yang akurat tentang perbedaan kinerja antara beberapa algoritma? Maka Anda memerlukan set validasi yang cukup besar. Apakah Anda tertarik pada seberapa baik kinerja suatu algoritma untuk N = 10.000 sampel? Maka Anda harus menempatkan setidaknya 10.000 sampel di set kereta.
Satu set validasi yang lebih besar memberi Anda lebih banyak kepastian statistik tentang hasil Anda, tetapi kepastiannya adalah tentang kinerja suatu algoritma yang dilatih pada lebih sedikit sampel, yang mungkin tidak seperti yang Anda harapkan pada akhirnya.
sumber