Apa arti istilah nonlinier jenuh?

30

Saya membaca makalah Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam dan pada bagian 3 mereka menjelaskan arsitektur Jaringan Neural Konvolusional mereka, mereka menjelaskan bagaimana mereka lebih suka menggunakan:

non-jenuh nonlinierf(x)=mSebuahx(0,x).

karena lebih cepat untuk berlatih. Dalam makalah itu mereka tampaknya merujuk pada kejenuhan nonlinier sebagai fungsi yang lebih tradisional yang digunakan dalam CNN, fungsi sigmoid dan hiperbolik tangen (yaitu dan sebagai jenuh).f(x)=tSebuahnh(x)f(x)=11+e-x=(1+e-x)-1

Mengapa mereka menyebut fungsi-fungsi ini sebagai "jenuh" atau "tidak jenuh"? Dalam arti apa fungsi-fungsi ini "jenuh" atau "tidak jenuh"? Apa arti istilah-istilah itu dalam konteks jaringan saraf convolutional? Apakah mereka digunakan di bidang pembelajaran mesin lainnya (dan statistik)?

Charlie Parker
sumber
Saya juga menemukan jawaban quora ini sangat membantu.
jujur

Jawaban:

26

Intuisi

Fungsi aktivasi jenuh memeras input.


Definisi

  • f adalah non-saturasi iff(|limz-f(z)|=+)(|limz+f(z)|=+)
  • f jenuh jika tidak non-jenuh.f

Definisi-definisi ini tidak spesifik untuk jaringan saraf convolutional.


Contohnya

Fungsi aktivasi Rectified Linear Unit (ReLU), yang didefinisikan sebagai tidak jenuh karena :f(x)=mSebuahx(0,x)limz+f(z)=+

masukkan deskripsi gambar di sini

Fungsi aktivasi sigmoid, yang didefinisikan sebagai jenuh, karena meremas bilangan real untuk berkisar antara :f(x)=11+e-x[0,1]

masukkan deskripsi gambar di sini

Fungsi aktivasi tanh (garis singgung hiperbolik) jenuh karena meremas bilangan real untuk berkisar antara :[-1,1]

masukkan deskripsi gambar di sini

(Angka berasal dari CS231n , Lisensi MIT)

Franck Dernoncourt
sumber
1
ah, bagus masuk akal! Saya tahu ini bukan pertanyaan awal saya, tetapi properti apa yang penting dalam konteks ML dan CNN?
Charlie Parker
Untuk JST, untuk menghindari memiliki satu unit dengan keluaran besar yang berdampak terlalu banyak pada lapisan keluaran JST.
Franck Dernoncourt
apa perbedaan antara tan dan sigmoid? keduanya menekan angka dalam jarak dekat! Saya tidak mengerti, bisakah Anda menguraikan abit ini lebih banyak? Saya agak buruk dalam matematika. (Ngomong-ngomong, aku datang dari sudut pandang CNN)
Rika
@ FranckDernoncourt Apakah maksud Anda jenuh untuk fungsi aktivasi tanh? Saya kira ada kesalahan ketik? :)
CoderSpinoza
1
@tenCupMaximum: To saturate artinya mengisi hingga titik di mana tidak ada lagi yang bisa ditambahkan. Dalam konteks fungsi jenuh, itu berarti bahwa setelah titik tertentu, setiap peningkatan lebih lanjut dalam input fungsi tidak akan lagi menyebabkan peningkatan (bermakna) dalam outputnya, yang (hampir) mencapai nilai maksimumnya. Fungsi pada titik itu adalah "semua terisi", sehingga untuk berbicara (atau jenuh ).
Ruben van Bergen
0

Fungsi aktivasi yang paling umum adalah LOG dan TanH. Fungsi-fungsi ini memiliki rentang yang kompak, yang berarti bahwa mereka memampatkan respons saraf menjadi subset terikat dari bilangan real. LOG memampatkan input ke output antara 0 dan 1, TAN H antara -1 dan 1. Fungsi-fungsi ini menampilkan perilaku pembatasan di batas.

Di perbatasan, gradien output sehubungan dengan input ∂yj / ∂xj sangat kecil. Jadi Gradient kecil maka langkah kecil menuju konvergensi maka waktu yang lebih lama untuk bertemu.

Pradi KL
sumber