Mengapa unit linear yang diperbaiki dianggap non-linear?

25

Mengapa fungsi aktivasi unit linear yang diperbaiki (ReLU) dianggap non-linear?

f(x)=max(0,x)

Mereka linier ketika input positif dan dari pemahaman saya untuk membuka kekuatan representatif dari jaringan yang dalam, aktivasi non-linear adalah suatu keharusan, jika tidak seluruh jaringan dapat diwakili oleh satu lapisan.

Aly
sumber
Ada pertanyaan serupa yang diajukan sebelumnya: stats.stackexchange.com/questions/275358/... meskipun itu mungkin bukan duplikat
Aksakal

Jawaban:

33

RELU adalah nonlinier. Untuk membantu intuisi Anda, pertimbangkan jaringan yang sangat sederhana dengan 1 unit input x , 2 unit tersembunyi ysaya , dan 1 unit output z . Dengan jaringan sederhana ini kita dapat mengimplementasikan fungsi nilai absolut,

z=maks(0,x)+maks(0,-x),

atau sesuatu yang terlihat mirip dengan fungsi sigmoid yang biasa digunakan,

z=maks(0,x+1)-maks(0,x-1).

Dengan menggabungkan ini ke jaringan yang lebih besar / menggunakan unit yang lebih tersembunyi, kita dapat memperkirakan fungsi sewenang-wenang.

Fungsi jaringan RELU

Lucas
sumber
Apakah jenis ReLus buatan tangan ini akan dibangun apriori dan dikodekan sebagai lapisan? Jika demikian, bagaimana Anda tahu bahwa jaringan Anda memerlukan salah satu dari ReLus yang dibangun khusus ini?
Monica Heddneck
4
@MonicaHeddneck Anda dapat menentukan non-linearitas Anda sendiri, ya. Apa yang membuat satu fungsi aktivasi lebih baik daripada yang lain adalah topik penelitian yang konstan. Sebagai contoh, kami biasa menggunakan sigmoids, , tetapi kemudian karena masalah gradien hilang, ReLU menjadi lebih populer. Jadi terserah kepada Anda untuk menggunakan fungsi aktivasi non-linearitas berbeda. σ(x)=11+e-x
Tarin Ziyaee
Bagaimana Anda memperkirakan dengan ReLU di luar sampel? ex
Aksakal
1
@Lucas, Jadi pada dasarnya jika menggabungkan (+)> 1 ReLU kita dapat memperkirakan fungsi apa pun, tetapi jika kita hanya reLu(reLu(....))akan linear selalu? Juga, di sini Anda berubah xmenjadi x+1, yang bisa dianggap sebagai Z=Wx+btempat W & b berubah untuk memberikan varian yang berbeda dari jenis x& & x+1?
anu