Bagaimana Anda memutuskan persentase kereta, validasi, dan tes Anda?

10

Saat membagi data berlabel saya ke dalam set pelatihan, validasi dan tes, saya telah mendengar semuanya dari 50/25/25 hingga 85/5/10. Saya yakin ini tergantung pada bagaimana Anda akan menggunakan model Anda dan seberapa rentan overfitting algoritma pembelajaran Anda. Apakah ada cara untuk memutuskan atau semuanya dengan aturan praktis? Bahkan ELSII tampaknya tidak jelas tentang masalah ini.

machine-learning cross-validation Ed Baik
sumber

Tanya Jawab Stackoverflow ini memiliki dua jawaban bagus untuk topik dengan masing-masing> 30 kenaikan suara. stackoverflow.com/questions/13610074/...

Luke Singham

13

$N>20000$

Frank Harrell
sumber

Dan bagaimana jika Anda bekerja pada data skala yang lebih besar (tetapi bukan data besar) dari 10.000 <N <1000000? Pada titik itu pemisahan tampaknya masuk akal. Ini cocok dengan banyak, tetapi tidak semua, situasi yang saya temui.

Ed Fine

Itu bisa sangat masuk akal.

Frank Harrell

Saya memiliki N = 95.000.000 (bertahan set 9.500.000). Di mana referensi yang memberi tahu saya bahwa saya tidak perlu mengulangi percobaan saya 10x?

dranxo

2

Cukup jalankan dua kali (2 split) dan hasilnya akan berbeda. Mereka mungkin bervariasi sangat sedikit sehingga Anda hanya perlu satu split. Pikirkan lebar interval kepercayaan untuk proporsi dengan ukuran sampel sebesar itu.

Frank Harrell

3

Bergantung pada aplikasinya, Anda mungkin bisa melewati ketidakpastian, dan sebagai gantinya menggunakan bootstrap.

Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)

Pertanyaan terkait di sini. Memahami bootstrap untuk validasi dan pemilihan model

DL Dahly
sumber

3

Tentu saja Anda juga harus memutuskan tentang rasio pemisahan untuk resampling (ganda) ...

Namun, resampling biasanya berfungsi untuk berbagai rasio pemisahan, jika Anda ingat

tidak melakukan cuti jika itu akan mengurangi jumlah kemungkinan lari yang berbeda
sisakan cukup kasus pelatihan pada set pelatihan terdalam sehingga algoritma traing memiliki peluang yang layak untuk menghasilkan model yang berguna.
semakin banyak kasus independen yang Anda miliki, semakin tidak penting pertimbangan ini.

Dan bagaimana jika Anda bekerja pada data skala yang lebih besar (tetapi bukan data besar) dari 10.000 <N <1000000?

Apa yang dapat Anda lakukan jika Anda tidak yakin perlunya dilakukan resampling adalah: resample beberapa kali. Cukup sehingga Anda bisa mengukur apakah resampling itu perlu.

periksa stabilitas prediksi Anda
periksa stabilitas parameter model Anda

Dengan hasil ini, Anda dapat memutuskan apakah Anda harus menambahkan lebih banyak iterasi resampling atau apakah semuanya baik-baik saja.

cbeleites tidak senang dengan SX
sumber

2

Tidak ada aturan yang keras dan cepat untuk ini. Tetapi analisis empiris menunjukkan bahwa semakin banyak data pelatihan yang Anda miliki, akurasi Anda akan semakin baik. Tapi apa pun yang Anda lakukan, jangan lupa untuk menggabungkan semua data pelatihan / validasi / tes Anda dan lakukan CV 10 kali lipat saat Anda selesai. Ini memberikan wawasan yang sangat bagus tentang masalah overfit / pakaian dalam selama percobaan Anda.

Rushdi Shams
sumber

1

Saya pikir itu semua masalah pertanyaan yang Anda coba jawab. Apakah Anda tertarik pada pandangan yang akurat tentang perbedaan kinerja antara beberapa algoritma? Maka Anda memerlukan set validasi yang cukup besar. Apakah Anda tertarik pada seberapa baik kinerja suatu algoritma untuk N = 10.000 sampel? Maka Anda harus menempatkan setidaknya 10.000 sampel di set kereta.

Satu set validasi yang lebih besar memberi Anda lebih banyak kepastian statistik tentang hasil Anda, tetapi kepastiannya adalah tentang kinerja suatu algoritma yang dilatih pada lebih sedikit sampel, yang mungkin tidak seperti yang Anda harapkan pada akhirnya.

MLS
sumber

Bagaimana Anda memutuskan persentase kereta, validasi, dan tes Anda?

Jawaban: