Bagaimana menerapkan regularisasi L2 menuju titik arbitrer di ruang angkasa?

11

Ini adalah sesuatu yang saya baca di buku Ian Goodfellow, Deep Learning .

Dalam konteks jaringan saraf, "hukuman norma parameter L2 umumnya dikenal sebagai pembusukan berat. Strategi regularisasi ini mendorong bobot lebih dekat ke titik asal [...]. Secara umum, kita dapat mengatur parameter agar mendekati titik tertentu dalam ruang "tetapi jauh lebih umum untuk mengatur parameter model ke nol. (Pembelajaran Jauh, Goodfellow et al.)

Saya hanya penasaran. Saya memahami bahwa dengan hanya menambahkan istilah regularizing untuk fungsi biaya kami, dan bahwa dengan meminimalkan biaya ini Total kita dapat mempengaruhi parameter model untuk tetap kecil:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Tetapi bagaimana kita menerapkan versi strategi regularisasi ini yang akan mengarahkan parameter menuju titik sembarang? (katakanlah kita ingin norma cenderung menuju 5)

Julep
sumber

Jawaban:

14

Anda sebenarnya mengajukan dua pertanyaan berbeda.

  1. Memiliki norma cenderung ke 5 menyiratkan bahwa Anda ingin bobot berada di dekat permukaan hypersphere yang berpusat pada titik asal dengan jari-jari 5. Regulatorisasi ini terlihat seperti

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Tapi Anda bisa menggunakan sesuatu seperti λabs(||w||225) , saya kira.

  1. Di sisi lain, jika Anda ingin cenderung ke titik arbitrer, Anda hanya perlu menggunakan titik itu sebagai pusat .c

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22
Sycorax berkata Reinstate Monica
sumber
(+1) Saya pikir cara berbuah untuk berpikir tentang "norma cenderung ke lima" bisa melalui pemilihan parameter tuning dalam versi diberikan oleh OP (daripada mengubah fungsi)J
user795305
(Saya telah menulis jawaban singkat untuk menjelaskan apa yang saya maksud di atas. Terima kasih, omong-omong, karena telah menjelaskan perbedaan dari dua pertanyaan yang diajukan!)
user795305
tujuan umum (praktis) ketika melakukan itu adalah untuk mengatur ke beberapa titik operasi yang diketahui misalnya model sebelumnya yang ingin Anda ganti tetapi Anda ingin transisi "mulus"
oDDsKooL
6

TentukanKita tahu bahwa , karena hukumannya memiliki asal sebagai minimizer.

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax menunjukkan bahwa, sama halnya,Generalisasi yang berhasil ini dapat mengarahkan kita untuk mengusulkan estimator mana adalah fungsi minimizer yang memenuhi beberapa properti yang kita cari. Memang, Sycorax mengambil , di mana (secara unik) diminimalkan pada titik asal, dan, khususnya, . Karena itu , seperti yang diinginkan. Sayangnya, kedua pilihanlimλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gmenyebabkan hukuman yang nonconvex, menyebabkan estimator menjadi sulit untuk dihitung.

Analisis di atas tampaknya menjadi solusi terbaik (mungkin hingga pilihan , di mana saya tidak memiliki yang lebih baik untuk menyarankan) jika kita bersikeras sebagai interpretasi unik "cenderung" yang dijelaskan dalam pertanyaan. Namun, dengan asumsi bahwa , ada beberapa sehingga minimizer dari masalah OP satsifes . Karena itu tanpa perlu mengubah fungsi tujuan. Jika tidak ada seperti itu, maka masalah komputasigλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y) secara intrinsik sulit. Memang, tidak perlu mempertimbangkan estimator selain ketika mencoba untuk mendorong sifat alami dari .w^λw^λ22

(Untuk menegakkan bahwa penaksir yang dihukum mendapatkan nilai penalti yang tidak dicapai oleh penaksir yang tidak dihukum tampaknya sangat tidak wajar bagi saya. Jika ada yang mengetahui tempat-tempat di mana ini sebenarnya diinginkan, silakan lakukan komentar!)

pengguna795305
sumber
1
Ini adalah tambahan yang bagus. +1
Sycorax berkata Reinstate Monica
2

Untuk tepat dimungkinkan untuk melihatnya sebagai kemungkinan log negatif dan pengaturan yang tepat dapat dilihat sebagai kemungkinan log negatif untuk distribusi sebelumnya. Pendekatan ini disebut Maximum A Posteriori (MAP).LJ

Seharusnya mudah untuk melihat contoh-contoh Sycorax dalam terang MAP.

Untuk detail MAP Anda dapat melihat catatan ini . Dari pengalaman saya, googling 'maksimum a posteriori regularisasi' memberikan hasil yang baik.

Jakub Bartczuk
sumber