Dalam minggu 3 catatan kuliah dari kelas Coursera Machine Learning Andrew Ng , istilah ditambahkan ke fungsi biaya untuk melaksanakan regularisasi:
Catatan kuliah mengatakan:
Kami juga dapat mengatur semua parameter theta kami dalam satu penjumlahan:
kemudian diterapkan pada istilah regularisasi jaringan saraf :
Ingatlah bahwa fungsi biaya untuk regresi logistik yang diatur adalah:
Untuk jaringan saraf, ini akan menjadi sedikit lebih rumit:
- Mengapa setengah konstan digunakan di sini? Sehingga dibatalkan dalam turunan ?
- Mengapa pembagian dengan contoh pelatihan? Bagaimana jumlah contoh pelatihan mempengaruhi banyak hal?
regularization
Tom Hale
sumber
sumber
Jawaban:
Misalkan Anda memiliki 10 contoh dan Anda tidak membagi biaya regularisasi L2 dengan jumlah contoh m . Maka "dominasi" dari biaya regularisasi L2 dibandingkan dengan biaya lintas-entropi akan menjadi 10: 1, karena setiap contoh pelatihan dapat berkontribusi pada keseluruhan biaya secara proporsional dengan 1 / m = 1/10.
Jika Anda memiliki lebih banyak contoh, katakanlah, 100, maka "dominasi" dari biaya regularisasi L2 akan menjadi sekitar 100: 1, jadi Anda perlu mengurangi λ yang sesuai, yang tidak nyaman. Lebih baik memiliki konstanta λ terlepas dari ukuran batch.
Pembaruan: Untuk membuat argumen ini lebih kuat saya membuat notebook jupyter .
sumber
sumber
Saya bertanya-tanya tentang hal yang sama persis ketika mengambil kursus ini, dan akhirnya meneliti sedikit ini. Saya akan memberikan jawaban singkat di sini, tetapi Anda dapat membaca ikhtisar yang lebih rinci dalam posting blog yang saya tulis tentang itu .
Saya percaya bahwa setidaknya sebagian dari alasan untuk koefisien penskalaan itu adalah bahwa regularisasi L² mungkin memasuki bidang pembelajaran mendalam melalui pengenalan konsep pembusukan berat badan yang terkait, tetapi tidak identik.
Faktor 0,5 kemudian ada untuk mendapatkan koefisien λ-satunya yang bagus untuk pembusukan berat dalam gradien, dan penskalaan dengan m ... well, setidaknya ada 5 motivasi berbeda yang saya temukan atau hasilkan:
grez
menunjukkan bahwa ini meningkatkan kinerja dalam praktik.sumber
Saya juga bingung tentang hal ini, tetapi kemudian dalam sebuah kuliah untuk pembelajaran mendalam. Andrew mengatakan ini hanyalah konstanta penskalaan:
http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s
Mungkin ada alasan yang lebih dalam untuk menggunakan 1 / 2m tapi saya curiga itu hanyalah hiperparameter.
sumber