Setiap kali regularisasi digunakan, sering ditambahkan ke fungsi biaya seperti dalam fungsi biaya berikut. Ini masuk akal bagi saya karena meminimalkan fungsi biaya berarti meminimalkan kesalahan (istilah kiri) dan meminimalkan besaran koefisien (istilah yang tepat) pada saat yang sama (atau setidaknya menyeimbangkan dua minimisasi).
Pertanyaan saya adalah mengapa istilah regularisasi ini ditambahkan ke fungsi biaya asli dan tidak dikalikan atau sesuatu yang membuat semangat motivasi di balik ide regularisasi? Apakah itu karena jika kita hanya menambahkan istilah itu cukup sederhana dan memungkinkan kita untuk menyelesaikan ini secara analitik atau adakah alasan yang lebih dalam?
regularization
granmester
sumber
sumber
Jawaban:
Ini memiliki intuisi yang cukup bagus dalam kerangka Bayesian. Pertimbangkan bahwa fungsi biaya yang diregulasiJ memiliki peran yang sama dengan probabilitas konfigurasi parameter θ dengan pengamatan X,y . Menerapkan teorema Bayes, kita mendapatkan:
Mengambil log ekspresi memberi kita:
Sekarang, katakanlah adalah negatif 1 log-posterior, . Karena istilah terakhir tidak bergantung pada , kita dapat menghilangkannya tanpa mengubah minimum. Anda dibiarkan dengan dua istilah: 1) istilah kemungkinan tergantung pada dan , dan 2) istilah sebelumnya tergantung pada saja. Kedua istilah ini persis sama dengan istilah data dan istilah regularisasi dalam rumus Anda.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Anda dapat melangkah lebih jauh dan menunjukkan bahwa fungsi kerugian yang Anda pasang sesuai dengan model berikut:
di mana parameter berasal dari distribusi Gaussian mean-nol dan pengamatan memiliki noise Gaussian mean-nol. Untuk lebih jelasnya lihat jawaban ini .θ y
1 Negatif karena Anda ingin memaksimalkan probabilitas tetapi meminimalkan biaya.
sumber
Jan dan Cagdas memberikan alasan Bayesian yang baik, menafsirkan regulator sebagai sebelumnya. Berikut adalah beberapa yang non-Bayesian:
Jika tujuan Anda yang tidak diregulasi adalah cembung, dan Anda menambahkan pengatur cembung, maka total tujuan Anda akan tetap cembung. Ini tidak akan benar jika Anda mengalikannya, atau sebagian besar metode penggabungan lainnya. Optimasi cembung benar-benar bagus dibandingkan dengan optimasi non-cembung; jika formulasi cembung berfungsi, lebih baik melakukannya.
Kadang-kadang mengarah ke bentuk tertutup yang sangat sederhana, karena wpof menyebutkan kasus regresi ridge.
Jika Anda memikirkan masalah yang "benar-benar" ingin Anda selesaikan sebagai masalah dengan batasan keras maka Lagrange dual-nya adalah masalah Meskipun Anda tidak harus menggunakan dualitas Lagrange, banyak yang mengerti tentang hal itu.
Seperti yang disebutkan ogogmad , teorema representer berlaku untuk kasus penalti aditif: jika Anda ingin mengoptimalkan pada keseluruhan kernel mereproduksi ruang fungsi Hilbert , maka kita tahu bahwa solusi untuk optimasi seluruh ruang terletak pada subruang dimensi hingga sederhana untuk banyak kerugian ; Saya tidak tahu apakah ini akan berlaku untuk regularizer multiplikatif (meskipun mungkin). Ini adalah fondasi dari SVM kernel.f H
Jika Anda melakukan pembelajaran mendalam atau sesuatu yang tidak cembung: kerugian aditif memberikan gradien aditif sederhana. Untuk regulator sederhana yang Anda berikan, itu menjadi pembusukan berat yang sangat sederhana . Tetapi bahkan untuk regularizer lebih rumit, mengatakan para WGAN-GP 's hilangnya lebih mudah bagi backpropagation untuk menghitung gradien ketika hanya harus mempertimbangkan jumlah kerugian dan regulator yang rumit (mempertimbangkan hal-hal secara terpisah), daripada harus lakukan aturan produk.L2
Kerugian tambahan juga dapat diterima oleh algoritma optimasi ADMM yang populer , dan algoritma berbasis "dekomposisi" lainnya.
Tidak satu pun dari ini adalah aturan yang keras dan cepat, dan kadang-kadang terkadang pembuat peraturan multiplikasi (atau lainnya) mungkin bekerja lebih baik (seperti yang ditunjukkan ogogmad ). (Faktanya, saya baru beberapa hari yang lalu menyerahkan makalah tentang bagaimana sesuatu yang dapat Anda interpretasikan sebagai pengatur multiplikasi lebih baik daripada zat tambahan WGAN-GP di atas!) Tapi mudah-mudahan ini membantu menjelaskan mengapa pengatur zat tambahan adalah "default".
sumber
Anda ingin meminimalkan kedua istilah dalam fungsi tujuan. Karena itu, Anda perlu memisahkan persyaratan. Jika Anda mengalikan istilah, Anda dapat memiliki satu istilah besar dan lainnya sangat rendah. Jadi, Anda masih berakhir dengan nilai rendah dari fungsi tujuan, tetapi dengan hasil yang tidak diinginkan.
Anda mungkin berakhir dengan model yang memiliki hampir semua variabel mendekati nol tanpa daya prediksi.
Fungsi obyektif, yang merupakan fungsi yang harus diminimalkan, dapat dikonstruksikan sebagai jumlah fungsi biaya dan ketentuan regularisasi.
Jika keduanya independen satu sama lain, Anda mendapatkan nilai-nilai yang diilustrasikan pada gambar pertama untuk tujuan. Anda lihat dalam hal jumlah, hanya ada satu minimum pada (0, 0). Dalam hal produk Anda memiliki ambiguitas. Anda memiliki seluruh permukaan hiper yang sama dengan nol pada (x = 0 atau y = 0). Jadi, algoritma pengoptimalan dapat berakhir di mana saja tergantung pada inisialisasi Anda. Dan itu tidak dapat memutuskan solusi mana yang lebih baik.
sumber
Anda dapat mencoba operasi biner lainnya ( ) dan melihat bagaimana mereka membandingkan.max,min,×
Masalah dengan dan adalah bahwa jika kesalahan adalah , maka penalti yang diatur akan berakhir menjadi . Ini memungkinkan model untuk berpakaian berlebihan.min × 0 0
Masalah dengan adalah bahwa Anda akhirnya meminimalkan "lebih keras" dari dua penalti (kesalahan pelatihan atau regularisasi) tetapi tidak yang lain.max
Sebaliknya, sederhana dan berfungsi.+
Anda mungkin bertanya mengapa bukan operasi biner lainnya? Tidak ada argumen yang bisa mengesampingkan mereka, jadi mengapa tidak?
sumber
Saya pikir Anda memiliki pertanyaan yang valid. Untuk memberikan jawaban yang tepat, Anda harus memahami sifat probabilistik masalah tersebut.
Secara umum masalah yang kami coba selesaikan adalah sebagai berikut: Data yang diberikan apa distribusi hipotesis yang menjelaskan data ini. Ketika kami mengatakan hipotesis, kami bermaksud PDF (setidaknya dalam konteks ini). Dan distribusi hipotesis adalah PDF dari PDF, yaitu, .D p(H|D)
Sekarang jika kita mengambil dari kedua sisi persamaan Bayes kita mendapatkan:−log
Biasanya sulit untuk dihitung. Hal yang baik adalah itu tidak mempengaruhi hasilnya. Ini hanyalah konstanta normalisasi.p(D)
Sekarang sebagai contoh jika set hipotesis kami adalah sekelompok orang Gaussi dengan mana kita tidak tahu , tetapi berasumsi untuk mengetahui (atau setidaknya berasumsi bahwa itu adalah konstan), dan terlebih lagi hipotesis itu sendiri didistribusikan sebagai Gaussian dengan kemudian menancapkan segala sesuatu di atas terlihat seperti:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Sekarang, jika kita meminimalkan ungkapan ini, kita menemukan hipotesis dengan probabilitas tertinggi. Konstanta tidak mempengaruhi minimalisasi. Ini adalah ungkapan dalam pertanyaan Anda.
Fakta bahwa kami menggunakan Gaussians tidak mengubah fakta bahwa istilah regularisasi adalah tambahan. Itu harus aditif (dalam istilah log atau multiplikatif dalam probabilitas), tidak ada pilihan lain. Apa yang akan berubah jika kita menggunakan distribusi lain adalah komponen dari penambahan. Fungsi biaya / kerugian yang Anda sediakan adalah optimal untuk skenario spesifikausa.
sumber
Ridge adalah formulasi yang sangat nyaman. Berbeda dengan jawaban probabilistik, jawaban ini tidak memberikan interpretasi estimasi, melainkan menjelaskan mengapa ridge adalah formulasi yang lama dan jelas.
Dalam regresi linier, persamaan normal memberikanθ^=(XTX)−1XTy
Tapi, matriks terkadang tidak dapat dibalik; salah satu cara untuk menyesuaikan itu adalah dengan menambahkan elemen kecil untuk diagonal: .XTX XTX+αI
Ini memberikan solusinya: ; maka tidak menyelesaikan masalah asli tetapi sebaliknya masalah punggungan.θ~=(XTX+αI)−1XTy θ~
sumber
Saya pikir ada alasan yang lebih intuitif mengapa kita tidak bisa menggandakannya dengan istilah regularisasi.
Ayo bawa fungsi penalti kami ke fungsi penalti reguler dikalikan dengan istilah regularisasi seperti yang Anda sarankan.
Di sini kita membuat minimum global dari fungsi penalti di mana . Dalam hal ini model kami dapat menghasilkan kesalahan tinggi antara prediksi dan data tetapi tidak masalah, jika bobot parameter model semuanya nol, fungsi penalti kami adalah nol .α∥θ∥22=0 J(θ=0)=0
Karena, kecuali model kami benar-benar sempurna, istilah tidak akan pernah menjadi nol (probabilitas bahwa ada himpunan θ untuk membuat model kita 'sempurna' diabaikan untuk data nyata), maka model kita harus selalu cenderung berlatih menuju solusi θ = 0.(12(y−θXT)(y−θXT)T)
Ini adalah apa yang akan kembali kecuali jika macet di minimum lokal di suatu tempat.
sumber