Saya mengerti alasan di balik pemisahan data ke dalam set Tes dan set Validasi. Saya juga mengerti bahwa ukuran perpecahan akan tergantung pada situasi tetapi umumnya akan bervariasi dari 50/50 hingga 90/10.
Saya membuat RNN untuk mengoreksi ejaan dan mulai dengan kumpulan data kalimat ~ 5m. Saya mencukur 500 ribu kalimat dan kemudian berlatih dengan sisa ~ 4,5 juta kalimat. Ketika pelatihan selesai, saya mengambil set validasi saya dan menghitung akurasinya.
Yang menarik adalah bahwa setelah hanya 4% dari set validasi saya, saya memiliki akurasi 69,4% dan persentase ini tidak berubah lebih dari 0,1% di kedua arah. Akhirnya saya hanya memotong pendek validasi karena jumlahnya macet di 69,5%.
Jadi mengapa memotong 10% untuk Validasi ketika saya mungkin bisa lolos dengan 1%? Apakah itu penting?
sumber
Jawaban:
Perangkat validasi yang lebih besar memberikan perkiraan kinerja out-of-sample yang lebih akurat. Tetapi seperti yang Anda perhatikan, pada titik tertentu perkiraan itu mungkin seakurat yang Anda butuhkan, dan Anda dapat membuat beberapa prediksi kasar mengenai ukuran sampel validasi yang Anda perlukan untuk mencapai titik itu.
Untuk akurasi klasifikasi yang benar / salah, Anda dapat menghitung kesalahan standar estimasi sebagai (standar deviasi dari variabel Bernouilli), di manapadalah probabilitas klasifikasi yang benar, dannp ( 1 - p ) / n---------√ hal n adalah ukuran set validasi. Tentu saja Anda tidak tahu , tetapi Anda mungkin memiliki beberapa gagasan tentang jangkauannya. Misalnya, Anda mengharapkan akurasi antara 60-80%, dan Anda ingin perkiraan Anda memiliki kesalahan standar lebih kecil dari 0,1%:
√hal
Berapa besar seharusnyan(ukuran set validasi)? Untukp=0,6kita mendapatkan:
n> 0,6 - 0,6 2
Perhitungan ini juga menunjukkan poin yang dibuat oleh Tim dalam jawabannya, bahwa keakuratan estimasi Anda bergantung pada ukuran absolut set validasi Anda (yaitu pada ), daripada ukurannya relatif terhadap set pelatihan.n
(Juga saya dapat menambahkan bahwa saya mengasumsikan pengambilan sampel representatif di sini. Jika data Anda sangat heterogen, Anda mungkin perlu menggunakan set validasi yang lebih besar hanya untuk memastikan bahwa data validasi mencakup semua kondisi yang sama dll. Seperti data kereta & tes Anda. )
sumber
Diskusi yang bagus tentang masalah ini disediakan oleh Andrew Ng pada kursus Pembelajaran Mendalamnya di Coursera.org . Seperti yang dia perhatikan, pemisahan standar seperti 8: 2, atau 9: 1 valid jika data Anda kecil hingga cukup besar, tetapi banyak masalah pembelajaran mesin saat ini menggunakan data dalam jumlah sangat besar (mis. Jutaan pengamatan seperti dalam kasus Anda), dan dalam skenario seperti itu Anda dapat meninggalkan 2%, 1%, atau bahkan kurang dari data sebagai set tes, mengambil semua data yang tersisa untuk set pelatihan Anda (dia sebenarnya berpendapat untuk menggunakan juga set dev). Saat ia berargumen, semakin banyak data yang Anda berikan algoritma Anda, semakin baik untuk kinerjanya dan ini terutama berlaku untuk pembelajaran yang mendalam * (ia juga mencatat bahwa ini tidak harus menjadi kasus untuk algoritma pembelajaran mesin pembelajaran non-dalam).
Seperti yang sudah diperhatikan di komentar oleh Alex Burn , ini bukan tentang ukuran set tes Anda, tetapi tentang keterwakilannya untuk masalah Anda. Biasanya dengan ukuran data yang lebih besar, kami berharap ini lebih representatif, tetapi tidak harus demikian. Ini selalu merupakan trade-off dan Anda perlu membuat pertimbangan khusus masalah. Tidak ada aturan yang mengatakan bahwa set tes tidak boleh kurang dari X kasus, atau kurang dari Y% dari data Anda.
* - Penafian: Saya mengulangi argumen Andrew Ng di sini, saya tidak akan menganggap diri saya sebagai spesialis dalam pembelajaran yang mendalam.
sumber
Dalam artikel1 / 2 N---√ dimana N adalah jumlah sampel yang tersedia. Dalam kasus AndaN= 5 ⋅ 106 dan pemisahan optimal adalah ≈ 0,00032 = 0,032 % . Menurut formula 1580 sampel harus optimal dalam kasus Anda.
Asymptotic Statistical Theory of Overtraining and Cross-Validation
oleh Shun-ichi Amari et al. [1] mereka mempelajari jumlah sampel optimal untuk ditinggalkan sebagai set validasi (untuk tujuan penghentian awal) dan menyimpulkan bahwa pemisahan optimal adalah[1] https://www.ncbi.nlm.nih.gov/pubmed/18255701
sumber