The tingkat belajar parameter ( ) di Gradient Meningkatkan menyusut kontribusi masing-masing model dasar baru -typically sebuah pohon yang dangkal yang ditambahkan dalam seri. Itu terbukti secara dramatis meningkatkan akurasi set tes, yang dapat dimengerti karena dengan langkah-langkah yang lebih kecil, minimum fungsi kerugian dapat dicapai lebih tepat.
Saya tidak mengerti mengapa tingkat pembelajaran dianggap sebagai parameter regularisasi ? Mengutip Elemen Pembelajaran Statistik , bagian 10.12.1, hal.364:
Mengontrol jumlah pohon bukan satu-satunya strategi regularisasi yang mungkin. Seperti halnya regresi ridge dan jaringan saraf, teknik penyusutan dapat digunakan juga. Nilai-nilai yang lebih kecil dari (lebih penyusutan) mengakibatkan risiko pelatihan yang lebih besar untuk jumlah yang sama dari iterasi M . Dengan demikian, baik V dan M mengendalikan risiko prediksi pada data pelatihan.
Regularisasi berarti "cara untuk menghindari overfitting", jadi jelas bahwa jumlah iterasi sangat penting dalam hal itu ( M yang terlalu tinggi menyebabkan overfitting). Tapi:
Nilai-nilai yang lebih kecil dari (lebih penyusutan) mengakibatkan risiko pelatihan yang lebih besar untuk jumlah yang sama dari iterasi M .
hanya berarti bahwa dengan tingkat belajar yang rendah, diperlukan lebih banyak iterasi untuk mencapai akurasi yang sama pada set pelatihan. Jadi bagaimana hubungannya dengan overfitting?
This is why small learning rate is sort of equal to "more regularizations"
. Menurut makalah ini, semakin besar tingkat belajar, semakin banyak regularisasi: Super-Konvergensi: Pelatihan Sangat Cepat dari Jaringan Saraf Tiruan Menggunakan Tingkat Pembelajaran BesarDengan metode Newton, Anda memperbarui parameter Anda dengan mengurangi gradien kerugian dibagi dengan kelengkungan kerugian. Dalam optimasi gradient descent, Anda memperbarui parameter Anda dengan mengurangi gradien dari kehilangan kali tingkat belajar. Dengan kata lain, kebalikan dari tingkat pembelajaran digunakan sebagai pengganti kelengkungan kerugian nyata.
Mari kita mendefinisikan masalah kerugian menjadi kerugian yang mendefinisikan apa model yang baik versus yang buruk. Kerugian yang sesungguhnya. Mari kita mendefinisikan kerugian yang dioptimalkan menjadi apa yang sebenarnya diminimalkan oleh aturan pembaruan Anda.
Menurut definisi, parameter regularisasi adalah istilah apa pun yang ada dalam kerugian yang dioptimalkan, tetapi bukan masalah yang hilang. Karena tingkat pembelajaran bertindak seperti istilah kuadratik tambahan dalam kerugian yang dioptimalkan, tetapi tidak ada hubungannya dengan hilangnya masalah, itu adalah parameter regularisasi.
Contoh lain dari regularisasi yang membenarkan perspektif ini adalah:
sumber
In other words, the reciprocal of the learning rate is used in place of the real loss curvature
. - Saya bukan ahli domain dan itu adalah pertama kalinya saya melihat definisi:a regularization parameter is any term that is in the optimized loss, but not the problem loss
. Saya juga tidak mengerti. Bisakah Anda memberikan referensi yang relevan? Terima kasih sebelumnya