Dalam Pembelajaran Dalam François Chollet dengan Python dikatakan:
Akibatnya, menyetel konfigurasi model berdasarkan kinerjanya pada set validasi dapat dengan cepat menghasilkan overfitting ke set validasi, meskipun model Anda tidak pernah dilatih secara langsung mengenai hal itu.
Inti dari fenomena ini adalah gagasan kebocoran informasi. Setiap kali Anda menyetel hyperparameter model Anda berdasarkan kinerja model pada set validasi, beberapa informasi tentang data validasi bocor ke dalam model . Jika Anda melakukan ini hanya sekali, untuk satu parameter, maka sangat sedikit bit informasi akan bocor , dan set validasi Anda akan tetap dapat diandalkan untuk mengevaluasi model. Tetapi jika Anda mengulangi ini berkali-kali - menjalankan satu percobaan, mengevaluasi set validasi, dan memodifikasi model Anda sebagai hasilnya - maka Anda akan membocorkan informasi yang semakin signifikan tentang validasi set ke dalam model.
Mengapa informasi tentang data validasi bocor jika saya mengevaluasi kinerja model pada data validasi ketika menyetel hyperparameters?
sumber
Jawaban:
Informasi bocor karena Anda menggunakan data validasi untuk membuat pilihan hyper-parameter. Pada dasarnya, Anda menciptakan masalah optimisasi yang rumit: meminimalkan kehilangan parameter-hiper sebagaimana dievaluasi terhadap data validasi, di mana parameter-hiper ini mengatur model jaringan saraf yang memiliki parameter dilatih dengan menggunakan set pelatihan khusus .ϕ θ
Meskipun parameter secara langsung diinformasikan oleh data pelatihan, parameter-hiper dipilih berdasarkan data validasi. Selain itu, karena parameter-hiper secara implisit mempengaruhi , informasi dari data validasi secara tidak langsung mempengaruhi model yang Anda pilih.θ ϕ ϕ θ
sumber