Apa itu Keteraturan dan Regulasi?

12

Saya semakin sering mendengar kata-kata ini ketika saya mempelajari pembelajaran mesin. Faktanya, beberapa orang telah memenangkan medali Fields dengan mengerjakan persamaan persamaan. Jadi, saya kira ini adalah istilah yang membawa dirinya dari fisika statistik / matematika ke pembelajaran mesin. Secara alami, sejumlah orang yang saya tanya tidak bisa menjelaskannya secara intuitif.

Saya tahu bahwa metode seperti bantuan putus sekolah dalam regularisasi (=> mereka mengatakan itu mengurangi overfitting, tapi saya benar-benar tidak mengerti apa itu: jika hanya mengurangi overfitting, mengapa tidak menyebutnya saja metode anti overfitting => harus ada sesuatu yang lebih saya pikir, maka pertanyaan ini).

Saya akan sangat berterima kasih (saya kira komunitas ML naif juga!) Jika Anda bisa menjelaskan:

  1. Bagaimana Anda mendefinisikan keteraturan? Apa itu keteraturan?

  2. Apakah regularisasi merupakan cara untuk memastikan keteraturan? yaitu menangkap keteraturan?

  3. Mengapa metode ensembling seperti dropout, semua metode normalisasi mengklaim melakukan regularisasi?

  4. Mengapa ini (keteraturan / regularisasi) muncul dalam pembelajaran mesin?

Terima kasih banyak atas bantuan Anda.

Rafael
sumber

Jawaban:

8

Regularisasi digunakan di hampir semua algoritma pembelajaran mesin tempat kami mencoba belajar dari sampel data pelatihan yang terbatas.

Saya akan berusaha menjawab pertanyaan spesifik Anda secara tidak langsung dengan menjelaskan asal usul konsep regularisasi. Teori lengkapnya jauh lebih terperinci dan penjelasan ini tidak boleh ditafsirkan sebagai lengkap, tetapi dimaksudkan untuk hanya mengarahkan Anda ke arah yang benar untuk eksplorasi lebih lanjut. Karena tujuan utama Anda adalah untuk mendapatkan pemahaman intuitif tentang regularisasi, saya telah merangkum dan menyederhanakan penjelasan berikut dari Bab 7 "Jaringan Saraf dan Mesin Pembelajaran", edisi ke-3 oleh Simon Haykin (dan menghilangkan beberapa detail saat melakukannya).

Mari kita kembali masalah belajar yang diawasi dengan variabel independen dan variabel dependen y i ketika mencoba menemukan fungsi f yang akan dapat "memetakan" input X ke output Y.xiyif

Untuk mengambil ini lebih jauh, mari kita memahami terminologi Hadamard tentang masalah "berposisi baik" - masalah diposisikan dengan baik jika memenuhi tiga kondisi berikut:

  1. Untuk setiap input , dan output y i ada.xiyi
  2. x1x2f(x1)=f(x2)x1=x2
  3. f

Untuk pembelajaran yang diawasi, kondisi ini dapat dilanggar karena:

  1. Output yang berbeda mungkin tidak ada untuk input yang diberikan.
  2. Mungkin tidak ada informasi yang cukup dalam sampel pelatihan untuk membangun pemetaan input-output yang unik (karena menjalankan algoritma pembelajaran pada sampel pelatihan yang berbeda menghasilkan fungsi pemetaan yang berbeda).
  3. Kebisingan dalam data menambah ketidakpastian pada proses rekonstruksi yang dapat mempengaruhi stabilitasnya.

Untuk memecahkan masalah "keliru" tersebut, Tikhonov mengusulkan metode regularisasi untuk menstabilkan solusi dengan memasukkan fungsional non-negatif yang menanamkan informasi sebelumnya tentang solusi.

Bentuk informasi sebelumnya yang paling umum melibatkan asumsi bahwa fungsi pemetaan input-output lancar - yaitu input serupa menghasilkan output yang sama.

λfλ

λ

Beberapa contoh fungsi biaya yang diatur tersebut adalah:

Regresi linier:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

Regresi logistik:

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

θxhθ(x)y

L2

Efek bersih dari penerapan regularisasi adalah untuk mengurangi kompleksitas model yang mengurangi pemasangan berlebihan. Pendekatan lain untuk regularisasi (tidak tercantum dalam contoh di atas) termasuk modifikasi model struktural seperti regresi / klasifikasi Pohon, pohon yang diperkuat, dll. Dengan menjatuhkan simpul untuk membuat pohon yang lebih sederhana. Baru-baru ini ini telah diterapkan dalam apa yang disebut "pembelajaran mendalam" dengan putus koneksi antara neuron dalam jaringan saraf.

Jawaban khusus untuk Q3 adalah bahwa beberapa metode ensembling seperti Random Forest (atau skema pemungutan suara serupa) mencapai regularisasi karena metode yang melekat, yaitu memilih dan memilih respons dari kumpulan Pohon yang tidak diatur. Meskipun masing-masing pohon memiliki pakaian yang berlebih, proses "meratakan" hasilnya tidak membuat ensemble overfitting ke set pelatihan.

EDIT:

Konsep keteraturan milik teori himpunan aksiomatik, Anda bisa merujuk ke artikel ini untuk petunjuk - en.wikipedia.org/wiki/Axiom_of_ regularity dan jelajahi topik ini lebih lanjut jika Anda tertarik pada detailnya.

Tentang regularisasi untuk jaring saraf: Ketika mengatur bobot saat menjalankan algoritma propagasi balik, istilah regularisasi ditambahkan ke fungsi biaya dengan cara yang sama seperti contoh untuk regresi linier dan logistik. Jadi penambahan istilah regularisasi menghentikan propagasi balik dari mencapai minimum global.

Artikel yang menggambarkan normalisasi bets untuk jaringan saraf adalah - Batch Normalisasi: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Internal Covariate Shift, Ioffe, Szegedy, 2015. Telah diketahui bahwa backpropagation untuk melatih jaringan saraf bekerja lebih baik ketika variabel input dinormalisasi. Dalam makalah ini, penulis telah menerapkan normalisasi untuk setiap mini-batch yang digunakan dalam Stochastic Gradient Descent untuk menghindari masalah "gradien hilang" ketika melatih banyak lapisan jaringan saraf. Algoritma yang dijelaskan dalam makalah mereka memperlakukan rerata dan varians yang dihitung dalam setiap batch untuk setiap lapisan aktivasi sebagai set parameter lain yang dioptimalkan dalam SGD batch mini (selain bobot NN). Aktivasi kemudian dinormalisasi menggunakan seluruh rangkaian pelatihan. Anda dapat merujuk ke makalah mereka untuk rincian lengkap dari algoritma ini. Dengan menggunakan metode ini, mereka dapat menghindari penggunaan dropout untuk regularisasi, dan karenanya mengklaim bahwa ini adalah jenis regularisasi lainnya.

Sandeep S. Sandhu
sumber
terima kasih atas jawaban yang bagus. Bisakah Anda menjelaskan secara matematis bagaimana metode seperti normalisasi mencapai regularisasi? Dalam sebuah pembicaraan oleh Goodfellow, ia mengatakan bahwa apa pun yang dapat dibedakan dapat bertindak sebagai pengatur untuk jaring saraf. Juga, tahukah Anda apa itu keteraturan? apakah itu hanya pola atau ada beberapa matematika di balik itu? Terima kasih lagi.
Rafael
Terima kasih balasannya. Saya tidak ingat pembicaraannya. Dalam jaring saraf kita menambahkan lapisan seperti normalisasi batch. Saya ingin tahu bagaimana mereka berkontribusi pada regularisasi?
Rafael
Diedit untuk menjawab komentar Anda serta menambahkan kembali jawaban yang diberikan dalam komentar sebelumnya.
Sandeep S. Sandhu
3

pertanyaan 1

Saya tidak mengetahui adanya definisi kanonik, dan pertanyaan Anda menyarankan bahwa istilah ini digunakan dengan makna yang berbeda. Mari kita mulai dengan contoh sederhana (yang akan menjawab pertanyaan 2).

Pertanyaan 2

The ridge regresi mungkin menjadi titik awal yang baik. Ini adalah metode regularisasi yang menghindari masalah yang diangkat oleh matriks tunggal .

Namun, "parameter regularisasi" yang didefinisikan dalam metode peningkatan gradien (per contoh) ada di sini untuk memastikan kompleksitas rendah untuk model.

Pertanyaan 3

Normalisasi sebagai regularisasi memiliki arti lain (dan terminologi ini cukup menyesatkan). Ini mengubah masalah kompleks "dari sudut pandang gradien" menjadi sesuatu yang lebih sederhana. Meskipun tidak diperlukan untuk mengkalibrasi jaringan saraf, itu sangat membantu selama kalibrasi. (Namun, perhatikan bahwa jika kita dapat menemukan ekstrem global dari fungsi arbitrer, normalisasi tidak diperlukan)

Pertanyaan 4

Regularisasi (sebagai cara untuk mengurangi kompleksitas model) digunakan untuk mengurangi pakaian berlebih. Semakin sedikit model yang kompleks, semakin kecil kemungkinannya untuk berpakaian berlebihan.

Ke samping

S. Watanabe menggunakan istilah ini dengan seksama dalam penelitiannya.

RUser4512
sumber