Mengapa istilah regularisasi * ditambahkan * ke fungsi biaya (bukan dikalikan dll.)?

51

Setiap kali regularisasi digunakan, sering ditambahkan ke fungsi biaya seperti dalam fungsi biaya berikut. Ini masuk akal bagi saya karena meminimalkan fungsi biaya berarti meminimalkan kesalahan (istilah kiri) dan meminimalkan besaran koefisien (istilah yang tepat) pada saat yang sama (atau setidaknya menyeimbangkan dua minimisasi).

J(θ)=12(yθXT)(yθXT)T+αθ22

Pertanyaan saya adalah mengapa istilah regularisasi ini αθ22 ditambahkan ke fungsi biaya asli dan tidak dikalikan atau sesuatu yang membuat semangat motivasi di balik ide regularisasi? Apakah itu karena jika kita hanya menambahkan istilah itu cukup sederhana dan memungkinkan kita untuk menyelesaikan ini secara analitik atau adakah alasan yang lebih dalam?

granmester
sumber
1
Argumen lain adalah melalui teorema representer,
jkabrg
2
pengali lagrangian
Haitao Du
9
Jika Anda memiliki lebih banyak variabel independen daripada pengamatan maka Anda mungkin bisa mendapatkan 12(yθXT)(yθXT)T ke nol beberapa cara yang berbeda, jadi mengalikan dengan apa pun tidak akan bantu membedakan model yang berguna
Henry

Jawaban:

47

Ini memiliki intuisi yang cukup bagus dalam kerangka Bayesian. Pertimbangkan bahwa fungsi biaya yang diregulasi J memiliki peran yang sama dengan probabilitas konfigurasi parameter θ dengan pengamatan X,y . Menerapkan teorema Bayes, kita mendapatkan:

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

Mengambil log ekspresi memberi kita:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Sekarang, katakanlah adalah negatif 1 log-posterior, . Karena istilah terakhir tidak bergantung pada , kita dapat menghilangkannya tanpa mengubah minimum. Anda dibiarkan dengan dua istilah: 1) istilah kemungkinan tergantung pada dan , dan 2) istilah sebelumnya tergantung pada saja. Kedua istilah ini persis sama dengan istilah data dan istilah regularisasi dalam rumus Anda.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Anda dapat melangkah lebih jauh dan menunjukkan bahwa fungsi kerugian yang Anda pasang sesuai dengan model berikut:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

di mana parameter berasal dari distribusi Gaussian mean-nol dan pengamatan memiliki noise Gaussian mean-nol. Untuk lebih jelasnya lihat jawaban ini .θy


1 Negatif karena Anda ingin memaksimalkan probabilitas tetapi meminimalkan biaya.

Jan Kukacka
sumber
5
Saya sedikit tidak puas dengan jawaban ini karena hanya melambaikan korespondensi antara fungsi biaya dan log-posterior. Jika biaya tidak sesuai dengan log-posterior melainkan posterior itu sendiri, kita akan menyimpulkan bahwa regularisasi harus dikalikan dengan biaya yang tidak diatur (seperti OP bertanya tentang). - Untuk menjustifikasi jawaban ini dengan benar, Anda perlu menjustifikasi mengapa log-posterior yang kami samakan dengan biayanya. (Anda semacam melakukan dengan "melangkah lebih jauh", tetapi Anda mendapatkan sedikit bergelombang pada saat itu.)
RM
1
@ RM, titik yang valid. Ada alasannya: itu karena fungsi kerugian standar yang digunakan dalam pembelajaran mesin sesuai dengan log-posterior daripada posterior itu sendiri. Mengapa? Karena mereka menggunakan minimalisasi risiko empiris; , dan fungsi kehilangan standar biasanya berbentuk mana adalah fungsi kerugian yang memiliki interpretasi yang masuk akal sebagai probabilitas log-posterior. (Saya curiga Anda tahu ini, tetapi saya hanya mengeja untuk pengunjung lain.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW
@RM Jika Anda memiliki biaya Anda selalu bisa mendefinisikan kembali masalah Anda dalam hal . Dengan kata lain, apa pun fungsi biaya Anda, itu mendefinisikan distribusi berdasarkan dibagi dengan beberapa konstanta normalisasi yang dapat Anda abaikan saat menggunakan metode MCMC. Fakta bahwa Anda selalu dapat menyatakan kembali dalam hal eksponensial sangat penting untuk mis. Simulasi anil, sampel MCMC, dll.CC=explnCexplnC
ely
@RM, misalnya, pertimbangkan makalah ini oleh Jun Liu (dan ada komentar serupa di buku MCMC Liu), di mana pada halaman 3 di bagian bawah tertulis, "Biarkan menjadi distribusi probabilitas target yang sedang diselidiki (mungkin semua pdf dapat ditulis dalam formulir ini) "(penekanan ditambahkan). Jadi dari sudut pandang Bayesian di mana bagian posterior yang didefinisikan oleh model kemungkinan adalah fungsi kehilangan ini, dekomposisi Bayesian ini untuk jawaban ini akan sepenuhnya umum. π(x)=cexph(x)
Ely
Terima kasih atas jawabannya! Saya mencoba memahami "itu" di awal posting Anda: apa sebenarnya yang Anda klaim memiliki intuisi yang bagus dalam kerangka bayesian? alasan mendasar mengapa menambahkan hukuman memberi penaksir yang baik? atau alasan historis (dan non-statistik) mengapa orang menggunakan penaksir aditif ini? (Ketika saya sedang mencoba untuk mendapatkan ungkapan saya untuk menyarankan, saya pikir jawaban Anda membahas alasan historis daripada alasan statistik.)
user795305
34

Jan dan Cagdas memberikan alasan Bayesian yang baik, menafsirkan regulator sebagai sebelumnya. Berikut adalah beberapa yang non-Bayesian:

  • Jika tujuan Anda yang tidak diregulasi adalah cembung, dan Anda menambahkan pengatur cembung, maka total tujuan Anda akan tetap cembung. Ini tidak akan benar jika Anda mengalikannya, atau sebagian besar metode penggabungan lainnya. Optimasi cembung benar-benar bagus dibandingkan dengan optimasi non-cembung; jika formulasi cembung berfungsi, lebih baik melakukannya.

  • Kadang-kadang mengarah ke bentuk tertutup yang sangat sederhana, karena wpof menyebutkan kasus regresi ridge.

  • Jika Anda memikirkan masalah yang "benar-benar" ingin Anda selesaikan sebagai masalah dengan batasan keras maka Lagrange dual-nya adalah masalah Meskipun Anda tidak harus menggunakan dualitas Lagrange, banyak yang mengerti tentang hal itu.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Seperti yang disebutkan ogogmad , teorema representer berlaku untuk kasus penalti aditif: jika Anda ingin mengoptimalkan pada keseluruhan kernel mereproduksi ruang fungsi Hilbert , maka kita tahu bahwa solusi untuk optimasi seluruh ruang terletak pada subruang dimensi hingga sederhana untuk banyak kerugian ; Saya tidak tahu apakah ini akan berlaku untuk regularizer multiplikatif (meskipun mungkin). Ini adalah fondasi dari SVM kernel.fH

    minfHJ(f)+λfH2
    J
  • Jika Anda melakukan pembelajaran mendalam atau sesuatu yang tidak cembung: kerugian aditif memberikan gradien aditif sederhana. Untuk regulator sederhana yang Anda berikan, itu menjadi pembusukan berat yang sangat sederhana . Tetapi bahkan untuk regularizer lebih rumit, mengatakan para WGAN-GP 's hilangnya lebih mudah bagi backpropagation untuk menghitung gradien ketika hanya harus mempertimbangkan jumlah kerugian dan regulator yang rumit (mempertimbangkan hal-hal secara terpisah), daripada harus lakukan aturan produk.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • Kerugian tambahan juga dapat diterima oleh algoritma optimasi ADMM yang populer , dan algoritma berbasis "dekomposisi" lainnya.

Tidak satu pun dari ini adalah aturan yang keras dan cepat, dan kadang-kadang terkadang pembuat peraturan multiplikasi (atau lainnya) mungkin bekerja lebih baik (seperti yang ditunjukkan ogogmad ). (Faktanya, saya baru beberapa hari yang lalu menyerahkan makalah tentang bagaimana sesuatu yang dapat Anda interpretasikan sebagai pengatur multiplikasi lebih baik daripada zat tambahan WGAN-GP di atas!) Tapi mudah-mudahan ini membantu menjelaskan mengapa pengatur zat tambahan adalah "default".

Dougal
sumber
2
+1. Semoga sukses dengan kiriman Anda [mungkin NIPS]!
Amoeba berkata Reinstate Monica
13

Anda ingin meminimalkan kedua istilah dalam fungsi tujuan. Karena itu, Anda perlu memisahkan persyaratan. Jika Anda mengalikan istilah, Anda dapat memiliki satu istilah besar dan lainnya sangat rendah. Jadi, Anda masih berakhir dengan nilai rendah dari fungsi tujuan, tetapi dengan hasil yang tidak diinginkan.

Anda mungkin berakhir dengan model yang memiliki hampir semua variabel mendekati nol tanpa daya prediksi.

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Fungsi obyektif, yang merupakan fungsi yang harus diminimalkan, dapat dikonstruksikan sebagai jumlah fungsi biaya dan ketentuan regularisasi.

Jika keduanya independen satu sama lain, Anda mendapatkan nilai-nilai yang diilustrasikan pada gambar pertama untuk tujuan. Anda lihat dalam hal jumlah, hanya ada satu minimum pada (0, 0). Dalam hal produk Anda memiliki ambiguitas. Anda memiliki seluruh permukaan hiper yang sama dengan nol pada (x = 0 atau y = 0). Jadi, algoritma pengoptimalan dapat berakhir di mana saja tergantung pada inisialisasi Anda. Dan itu tidak dapat memutuskan solusi mana yang lebih baik.

Sören
sumber
10

Anda dapat mencoba operasi biner lainnya ( ) dan melihat bagaimana mereka membandingkan.max,min,×

Masalah dengan dan adalah bahwa jika kesalahan adalah , maka penalti yang diatur akan berakhir menjadi . Ini memungkinkan model untuk berpakaian berlebihan.min×00

Masalah dengan adalah bahwa Anda akhirnya meminimalkan "lebih keras" dari dua penalti (kesalahan pelatihan atau regularisasi) tetapi tidak yang lain.max

Sebaliknya, sederhana dan berfungsi.+

Anda mungkin bertanya mengapa bukan operasi biner lainnya? Tidak ada argumen yang bisa mengesampingkan mereka, jadi mengapa tidak?

jkabrg
sumber
8

Saya pikir Anda memiliki pertanyaan yang valid. Untuk memberikan jawaban yang tepat, Anda harus memahami sifat probabilistik masalah tersebut.

Secara umum masalah yang kami coba selesaikan adalah sebagai berikut: Data yang diberikan apa distribusi hipotesis yang menjelaskan data ini. Ketika kami mengatakan hipotesis, kami bermaksud PDF (setidaknya dalam konteks ini). Dan distribusi hipotesis adalah PDF dari PDF, yaitu, .Dp(H|D)

  1. p(H|D) adalah distribusi lebih hipotesis yang diberikan . Jika kita dapat menemukan ini maka kita dapat memilih satu di antara hipotesis ini, misalnya yang memiliki probabilitas tertinggi, atau kita dapat memilih untuk merata-ratakan semuanya. Pendekatan yang agak lebih mudah adalah menyerang masalah dari arah yang berbeda menggunakan Teorema Bayes.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) adalah salah satu hipotesis, itu juga disebut kemungkinan. adalah distribusi hipotesis di alam semesta hipotesis kita sebelum mengamati data. Setelah kami mengamati data, kami memperbarui keyakinan kami.p(H)

  3. p(D) adalah rata-rata hipotesis sebelum kami memperbarui keyakinan kami.

Sekarang jika kita mengambil dari kedua sisi persamaan Bayes kita mendapatkan:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Biasanya sulit untuk dihitung. Hal yang baik adalah itu tidak mempengaruhi hasilnya. Ini hanyalah konstanta normalisasi.p(D)

Sekarang sebagai contoh jika set hipotesis kami adalah sekelompok orang Gaussi dengan mana kita tidak tahu , tetapi berasumsi untuk mengetahui (atau setidaknya berasumsi bahwa itu adalah konstan), dan terlebih lagi hipotesis itu sendiri didistribusikan sebagai Gaussian dengan kemudian menancapkan segala sesuatu di atas terlihat seperti:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Sekarang, jika kita meminimalkan ungkapan ini, kita menemukan hipotesis dengan probabilitas tertinggi. Konstanta tidak mempengaruhi minimalisasi. Ini adalah ungkapan dalam pertanyaan Anda.

Fakta bahwa kami menggunakan Gaussians tidak mengubah fakta bahwa istilah regularisasi adalah tambahan. Itu harus aditif (dalam istilah log atau multiplikatif dalam probabilitas), tidak ada pilihan lain. Apa yang akan berubah jika kita menggunakan distribusi lain adalah komponen dari penambahan. Fungsi biaya / kerugian yang Anda sediakan adalah optimal untuk skenario spesifikausa.

Cagdas Ozgenc
sumber
Hai Cagdas, terima kasih atas penjelasannya. Saya tidak mengerti transformasi dari persamaan terakhir pada RHS. Bisakah Anda menunjukkan beberapa sumber bagi saya untuk memahami bagian itu dengan lebih jelas
Itachi
7

Ridge adalah formulasi yang sangat nyaman. Berbeda dengan jawaban probabilistik, jawaban ini tidak memberikan interpretasi estimasi, melainkan menjelaskan mengapa ridge adalah formulasi yang lama dan jelas.

Dalam regresi linier, persamaan normal memberikan θ^=(XTX)1XTy

Tapi, matriks terkadang tidak dapat dibalik; salah satu cara untuk menyesuaikan itu adalah dengan menambahkan elemen kecil untuk diagonal: .XTXXTX+αI

Ini memberikan solusinya: ; maka tidak menyelesaikan masalah asli tetapi sebaliknya masalah punggungan.θ~=(XTX+αI)1XTyθ~

wpof
sumber
3
Silakan tentukan jawaban yang Anda maksud. Pemesanan akan berpindah karena suara menumpuk sehingga "di atas" secara inheren ambigu.
gung - Reinstate Monica
1

Saya pikir ada alasan yang lebih intuitif mengapa kita tidak bisa menggandakannya dengan istilah regularisasi.

Ayo bawa fungsi penalti kami ke fungsi penalti reguler dikalikan dengan istilah regularisasi seperti yang Anda sarankan.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Di sini kita membuat minimum global dari fungsi penalti di mana . Dalam hal ini model kami dapat menghasilkan kesalahan tinggi antara prediksi dan data tetapi tidak masalah, jika bobot parameter model semuanya nol, fungsi penalti kami adalah nol .αθ22=0J(θ=0)=0

Karena, kecuali model kami benar-benar sempurna, istilah tidak akan pernah menjadi nol (probabilitas bahwa ada himpunan θ untuk membuat model kita 'sempurna' diabaikan untuk data nyata), maka model kita harus selalu cenderung berlatih menuju solusi θ = 0.(12(yθXT)(yθXT)T)

Ini adalah apa yang akan kembali kecuali jika macet di minimum lokal di suatu tempat.

James Fulton
sumber