Apakah penghentian dan putus sekolah dini cukup untuk meregulasi sebagian besar jaringan saraf yang dalam dalam praktik?

9

Ada begitu banyak teknik regularisasi, tidak praktis untuk mencoba semua kombinasi:

  • l1 / l2
  • norma maks
  • keluar
  • berhenti lebih awal
  • ...

Tampaknya sebagian besar orang senang dengan kombinasi putus sekolah + berhenti dini: apakah ada kasus di mana menggunakan teknik lain masuk akal?

Misalnya, jika Anda menginginkan model yang jarang, Anda dapat menambahkan sedikit regularisasi l1. Selain itu, adakah argumen kuat yang mendukung percikan dalam teknik regularisasi lainnya?

Saya tahu tentang teorema tanpa-makan siang, dalam teori saya harus mencoba semua kombinasi teknik regularisasi, tetapi tidak pantas untuk dicoba jika hampir tidak pernah menghasilkan peningkatan kinerja yang signifikan.

MiniQuark
sumber

Jawaban:

1

Mari kita ingat tujuan utama dari regularisasi adalah untuk mengurangi over fitting.

Apa teknik lain yang saat ini digunakan untuk mengurangi over fitting:

1) Pembagian berat - seperti yang dilakukan di CNN, menerapkan filter yang sama di seluruh gambar.

2) Augmentasi Data - Menambah data yang ada dan menghasilkan data sintetis dengan model generatif

3) Sejumlah besar data pelatihan - terima kasih kepada ImageNet dll.

4) Pra-pelatihan- Sebagai contoh katakanlah Gunakan bobot yang dipelajari ImageNet sebelum pelatihan klasifikasi pada katakanlah dataset Caltech.

5) Penggunaan RelU's di Neural Nets dengan sendirinya mendorong sparsity karena memungkinkan nol aktivasi. Bahkan untuk wilayah yang lebih kompleks dalam ruang fitur menggunakan lebih banyak RelU, nonaktifkan mereka untuk wilayah sederhana. Jadi pada dasarnya bervariasi kompleksitas model berdasarkan kompleksitas masalah.

Penggunaan banyak teknik semacam itu selain putus dan berhenti lebih awal tampaknya cukup untuk masalah yang diselesaikan hari ini. Namun untuk masalah baru dengan data yang lebih sedikit Anda mungkin menemukan teknik regularisasi lainnya bermanfaat.

Amitoz Dandiana
sumber
+1 Jawaban yang bagus, terima kasih. Tampaknya ada garis buram yang memisahkan teknik inisialisasi bobot (mis. Pra-pelatihan) dan regularisasi. Juga, beberapa teknik mungkin berguna untuk beberapa hal, termasuk regularisasi: misalnya batch-norm dimaksudkan untuk memperbaiki masalah gradien menghilang, tetapi juga memiliki beberapa kemampuan regularisasi. Saya akan menunggu beberapa jawaban lain sebelum menerimanya.
MiniQuark