Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?

10

Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin?

Saya akan memilih secara intuitif

  • Pelatihan menetapkan ukuran 50
  • Validasi silang mengatur ukuran 25, dan
  • Ukuran tes 25.

Tapi mungkin ini lebih atau kurang masuk akal. Bagaimana saya harus benar-benar memutuskan nilai-nilai ini? Bolehkah saya mencoba opsi yang berbeda (meskipun saya kira itu tidak begitu disukai ... peningkatan kemungkinan belajar berlebihan)?

Bagaimana jika saya memiliki lebih dari dua kelas?

Est
sumber
2
100 terlalu kecil untukku. Saya akan memilih strategi cuti-keluar untuk validasi silang dan evaluasi tes.
Memming
Saya belum melihat literatur tentang ini (ukuran sampel minimum untuk validasi). Tidak yakin kenapa. Sepertinya masalah penting.
charles

Jawaban:

15
cbeleites tidak senang dengan SX
sumber
+1 murni untuk saran tentang optimasi parameter dan kompleksitas model. tetapi semua saran ini fantastis.
charles
1

Mengingat ukuran sampel Anda kecil, praktik yang baik adalah meninggalkan bagian validasi silang dan menggunakan rasio 60 - 40 atau 70 - 30.

Seperti yang dapat Anda lihat di bagian 2.8 dari Pengantar Clementine dan Penambangan Data dan juga di Perpustakaan MSDN - Penambangan Data - Pelatihan dan Perangkat Pengujian , rasio 70 - 30 adalah umum. Menurut Andrew Ng's Machine Learning ceramah 60 - 20 - 20 rasio direkomendasikan.

Semoga saya bisa membantu. Salam Hormat.

mrdatamx
sumber