Mengapa informasi tentang data validasi bocor jika saya mengevaluasi kinerja model pada data validasi ketika menyetel hyperparameters?

9

Dalam Pembelajaran Dalam François Chollet dengan Python dikatakan:

Akibatnya, menyetel konfigurasi model berdasarkan kinerjanya pada set validasi dapat dengan cepat menghasilkan overfitting ke set validasi, meskipun model Anda tidak pernah dilatih secara langsung mengenai hal itu.

Inti dari fenomena ini adalah gagasan kebocoran informasi. Setiap kali Anda menyetel hyperparameter model Anda berdasarkan kinerja model pada set validasi, beberapa informasi tentang data validasi bocor ke dalam model . Jika Anda melakukan ini hanya sekali, untuk satu parameter, maka sangat sedikit bit informasi akan bocor , dan set validasi Anda akan tetap dapat diandalkan untuk mengevaluasi model. Tetapi jika Anda mengulangi ini berkali-kali - menjalankan satu percobaan, mengevaluasi set validasi, dan memodifikasi model Anda sebagai hasilnya - maka Anda akan membocorkan informasi yang semakin signifikan tentang validasi set ke dalam model.

Mengapa informasi tentang data validasi bocor jika saya mengevaluasi kinerja model pada data validasi ketika menyetel hyperparameters?

fabiomaia
sumber
BTW: itu tidak hanya tergantung pada seberapa sering Anda melakukan ini tetapi juga pada ketidakpastian acak dari evaluasi kinerja Anda (target fungsional) selama optimasi.
cbeleites tidak senang dengan SX
1
@cbeleites Maaf, apa artinya itu?
fabiomaia
1
jika hasil valitasi yang digunakan untuk optimisasi sempurna (mis. tidak kesalahan sistematis atau acak), optimisasi akan memilih model yang benar-benar optimal, Anda tidak akan memiliki overfitting dan validasi sempurna independen lain dari model yang dipilih akan menghasilkan hasil yang persis sama. Optimalisasi bahkan dapat mentolerir kesalahan sistematis (bias) selama tidak berubah dengan faktor-faktor yang Anda variasikan selama optimasi. Sekarang pertimbangkan apa yang terjadi jika ada kesalahan acak (ketidakpastian varians) pada perkiraan kinerja: Anda mendapatkan suara di atas "lanskap" performane yang sebenarnya.
cbeleites tidak senang dengan SX
1
Kebisingan ini dapat membuat beberapa titik (pengaturan hiperparameter) terlihat lebih baik daripada yang sebenarnya, sehingga pengaturan hiperparameter tersebut dapat dipilih secara tidak sengaja (dan salah). Probabilitas bahwa ini terjadi meningkat dengan a) berapa kali Anda melihat nilai kinerja tersebut dan b) jumlah kebisingan yang Anda miliki di atas kinerja yang sebenarnya (dibandingkan dengan peningkatan kinerja yang sebenarnya). Ini bukan tentang mengapa menggunakan kembali hasil validasi adalah kebocoran data, tetapi tentang bagaimana overfitting masing-masing terjadi dan seberapa serius masalah yang harus Anda harapkan - sehingga hanya komentar.
cbeleites tidak senang dengan SX

Jawaban:

11

Informasi bocor karena Anda menggunakan data validasi untuk membuat pilihan hyper-parameter. Pada dasarnya, Anda menciptakan masalah optimisasi yang rumit: meminimalkan kehilangan parameter-hiper sebagaimana dievaluasi terhadap data validasi, di mana parameter-hiper ini mengatur model jaringan saraf yang memiliki parameter dilatih dengan menggunakan set pelatihan khusus .ϕθ

Meskipun parameter secara langsung diinformasikan oleh data pelatihan, parameter-hiper dipilih berdasarkan data validasi. Selain itu, karena parameter-hiper secara implisit mempengaruhi , informasi dari data validasi secara tidak langsung mempengaruhi model yang Anda pilih.θϕϕθ

Sycorax berkata Reinstate Monica
sumber
1
Dalam retrospeksi, ini cukup jelas. Tapi apa artinya "Jika Anda melakukan ini hanya sekali, untuk satu parameter, maka sangat sedikit bit informasi akan bocor" artinya? Apa yang dimaksud di sana dan bagaimana perbedaannya dengan kasus lain di mana "Anda mengulangi ini berkali-kali"?
fabiomaia
4
Misalkan Anda hanya mencoba 2 konfigurasi hyper-parameter, mengukur kinerja terhadap data validasi, dan memilih model terbaik. Ada kemungkinan lebih kecil bahwa, secara kebetulan, Anda berhasil menyesuaikan data validasi. Sebaliknya, misalkan Anda mencoba konfigurasi hyper-parameter dan memilih model terbaik berdasarkan data validasi. Ada risiko yang lebih besar bahwa, semata-mata karena keberuntungan, Anda berhasil menyesuaikan data validasi. Lihat juga: "taman jalur forking" dan penemuan efek palsu. 210
Sycorax berkata Reinstate Monica
1
Itu masuk akal. Kata-kata dalam buku aslinya bukan yang terbaik. Terima kasih!
fabiomaia
Kata-kata dalam buku ini sangat bagus.
Michael M
2
Bagi Anda, itu mungkin tampak "luar biasa" karena Anda mungkin sudah tahu apa yang dibicarakan penulis. Komentar oleh @Sycorax jauh lebih eksplisit dan bermanfaat bagi saya.
fabiomaia