Ini adalah sesuatu yang saya baca di buku Ian Goodfellow, Deep Learning .
Dalam konteks jaringan saraf, "hukuman norma parameter L2 umumnya dikenal sebagai pembusukan berat. Strategi regularisasi ini mendorong bobot lebih dekat ke titik asal [...]. Secara umum, kita dapat mengatur parameter agar mendekati titik tertentu dalam ruang "tetapi jauh lebih umum untuk mengatur parameter model ke nol. (Pembelajaran Jauh, Goodfellow et al.)
Saya hanya penasaran. Saya memahami bahwa dengan hanya menambahkan istilah regularizing untuk fungsi biaya kami, dan bahwa dengan meminimalkan biaya ini Total kita dapat mempengaruhi parameter model untuk tetap kecil:
Tetapi bagaimana kita menerapkan versi strategi regularisasi ini yang akan mengarahkan parameter menuju titik sembarang? (katakanlah kita ingin norma cenderung menuju 5)
TentukanKita tahu bahwa , karena hukumannya memiliki asal sebagai minimizer.
Sycorax menunjukkan bahwa, sama halnya,Generalisasi yang berhasil ini dapat mengarahkan kita untuk mengusulkan estimator mana adalah fungsi minimizer yang memenuhi beberapa properti yang kita cari. Memang, Sycorax mengambil , di mana (secara unik) diminimalkan pada titik asal, dan, khususnya, . Karena itu , seperti yang diinginkan. Sayangnya, kedua pilihanlimλ→∞{argminwL(Θ,X,y)+λ∥w−c∥22}=c.
Analisis di atas tampaknya menjadi solusi terbaik (mungkin hingga pilihan , di mana saya tidak memiliki yang lebih baik untuk menyarankan) jika kita bersikeras sebagai interpretasi unik "cenderung" yang dijelaskan dalam pertanyaan. Namun, dengan asumsi bahwa , ada beberapa sehingga minimizer dari masalah OP satsifes . Karena itu tanpa perlu mengubah fungsi tujuan. Jika tidak ada seperti itu, maka masalah komputasig λ→∞ ∥argminwL(Θ,X,y)∥22≥5 Λ w^Λ ∥w^Λ∥22=5
(Untuk menegakkan bahwa penaksir yang dihukum mendapatkan nilai penalti yang tidak dicapai oleh penaksir yang tidak dihukum tampaknya sangat tidak wajar bagi saya. Jika ada yang mengetahui tempat-tempat di mana ini sebenarnya diinginkan, silakan lakukan komentar!)
sumber
Untuk tepat dimungkinkan untuk melihatnya sebagai kemungkinan log negatif dan pengaturan yang tepat dapat dilihat sebagai kemungkinan log negatif untuk distribusi sebelumnya. Pendekatan ini disebut Maximum A Posteriori (MAP).L J
Seharusnya mudah untuk melihat contoh-contoh Sycorax dalam terang MAP.
Untuk detail MAP Anda dapat melihat catatan ini . Dari pengalaman saya, googling 'maksimum a posteriori regularisasi' memberikan hasil yang baik.
sumber