Pertanyaan utama saya adalah tentang mencoba memahami bagaimana k-fold cross-validation cocok dalam konteks memiliki pelatihan / validasi / pengujian set (jika cocok sama sekali dalam konteks seperti itu).
Biasanya, orang berbicara tentang memecah data menjadi set pelatihan, validasi dan pengujian - katakan dengan rasio 60/20/20 per kursus Andrew Ng - di mana set validasi digunakan untuk mengidentifikasi parameter optimal untuk pelatihan model.
Namun, jika seseorang ingin menggunakan validasi silang k-fold dengan harapan mendapatkan ukuran akurasi yang lebih representatif ketika jumlah data relatif kecil, apa yang melakukan validasi silang k-fold memerlukan tepat dalam pemisahan 60/20/20 ini. skenario?
Misalnya, apakah itu berarti bahwa kami benar-benar akan menggabungkan set pelatihan dan pengujian (80% dari data) dan melakukan validasi k-fold pada mereka untuk mendapatkan ukuran akurasi kami (secara efektif membuang dengan memiliki 'set pengujian' yang eksplisit? Jika demikian, model terlatih mana yang kami gunakan a) dalam produksi, dan b) untuk digunakan terhadap set validasi dan mengidentifikasi parameter pelatihan yang optimal? Misalnya, satu jawaban yang mungkin untuk a dan b mungkin adalah menggunakan model lipatan terbaik.
Membagi menjadi pelatihan / validasi / pengujian juga merupakan strategi pengambilan sampel.
sumber