Saya punya pertanyaan tentang optimasi parameter ketika saya menggunakan validasi silang 10 kali lipat.
Saya ingin bertanya apakah parameter harus diperbaiki atau tidak selama pelatihan model setiap lipatan, yaitu (1) pilih satu set parameter yang dioptimalkan untuk akurasi rata-rata setiap lipatan.
atau
(2) Saya harus menemukan parameter yang dioptimalkan untuk setiap lipatan dan kemudian setiap lipatan menggunakan parameter yang dioptimalkan berbeda untuk melatih modelnya kemudian menguji masing-masing data uji lipatan, dan akhirnya rata-rata akurasi setiap lipatan sebagai hasilnya?
Yang mana adalah metode yang benar untuk validasi silang? Terima kasih banyak.
Jawaban:
Pertama-tama mari kita bedakan antara dua set parameter: parameter model (misalnya bobot untuk fitur dalam regresi), dan parameter untuk algoritma pembelajaran (dan hiperparameter). Tujuan validasi silang adalah untuk mengidentifikasi parameter pembelajaran yang menggeneralisasi dengan baik di seluruh sampel populasi yang kita pelajari dari setiap lipatan.
Lebih khusus: Kami mencari secara global ruang lebih dari parameter pembelajaran, tetapi dalam setiap flip, kami memperbaiki parameter pembelajaran dan mempelajari parameter model. Hasilnya harus menjadi parameter pembelajaran yang menghasilkan rata-rata kinerja terbaik di semua lipatan. Kami kemudian dapat menggunakan ini untuk melatih model pada seluruh dataset.
sumber
Saya pikir jawaban yang diterima saat ini tidak lengkap dengan cara yang tidak menguntungkan. Saya tidak setuju dengan kalimat itu
Ini memang satu aplikasi yang sangat penting dari validasi silang, tetapi bukan satu-satunya. Biasanya, Anda ingin melakukan dua hal:
Sekarang, untuk menyelesaikan tujuan 1 tergantung pada algoritma Anda, Anda mungkin perlu menyetel beberapa hiperparameter dan ini memang sering dilakukan dengan validasi silang. Tetapi ini belum membantu Anda dengan tujuan 2. Untuk ini, pada dasarnya Anda perlu membuat validasi silang, seperti ini:
Untuk membangun model yang baik, Anda hanya perlu validasi salib batin. Anda masih perlu melakukannya untuk mendapatkan model yang bagus. Tetapi untuk mendapatkan perkiraan yang baik dari kinerja model Anda, Anda perlu melakukan seluruh proses pembangunan model di dalam skema validasi silang. Ini juga termasuk langkah-langkah seperti imputasi, dll.
sumber