Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin?
Saya akan memilih secara intuitif
- Pelatihan menetapkan ukuran 50
- Validasi silang mengatur ukuran 25, dan
- Ukuran tes 25.
Tapi mungkin ini lebih atau kurang masuk akal. Bagaimana saya harus benar-benar memutuskan nilai-nilai ini? Bolehkah saya mencoba opsi yang berbeda (meskipun saya kira itu tidak begitu disukai ... peningkatan kemungkinan belajar berlebihan)?
Bagaimana jika saya memiliki lebih dari dua kelas?
Jawaban:
Anda pasti menemukan pertanyaan yang sangat mirip: Pilihan K dalam validasi silang K-fold ?
(Termasuk tautan ke karya Ron Kohavi)
Menariknya, dengan masalah klasifikasi ukuran sampel yang sangat kecil ini, validasi seringkali lebih sulit (dalam hal kebutuhan ukuran sampel) dibandingkan dengan pelatihan model yang layak. Jika Anda memerlukan literatur tentang hal ini, lihat misalnya makalah kami tentang perencanaan ukuran sampel:
Beleites, C. dan Neugebauer, U. dan Bocklitz, T. dan Krafft, C. dan Popp, J .: Perencanaan ukuran sampel untuk model klasifikasi. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
naskah diterima di arXiv: 1211.1323
Poin penting lainnya adalah memanfaatkan dengan baik kemungkinan untuk mengulangi / mengulangi validasi silang (yang merupakan salah satu alasan terhadap LOO): ini memungkinkan Anda untuk mengukur stabilitas prediksi terhadap gangguan (yaitu beberapa kasus berbeda) dari pelatihan. data.
Literatur:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Jika Anda memutuskan untuk menjalankan tunggal pada set uji tahan (tidak ada iterasi / pengulangan),
sumber
Mengingat ukuran sampel Anda kecil, praktik yang baik adalah meninggalkan bagian validasi silang dan menggunakan rasio 60 - 40 atau 70 - 30.
Seperti yang dapat Anda lihat di bagian 2.8 dari Pengantar Clementine dan Penambangan Data dan juga di Perpustakaan MSDN - Penambangan Data - Pelatihan dan Perangkat Pengujian , rasio 70 - 30 adalah umum. Menurut Andrew Ng's Machine Learning ceramah 60 - 20 - 20 rasio direkomendasikan.
Semoga saya bisa membantu. Salam Hormat.
sumber