Di sini jawabannya mengacu pada gradien menghilang dan meledak yang telah di- sigmoid
fungsi aktivasi tetapi, saya kira, Relu
memiliki kelemahan dan itu adalah nilai yang diharapkan. tidak ada batasan untuk output Relu
dan nilai yang diharapkan tidak nol. Saya ingat waktu sebelum popularitas Relu
yang tanh
adalah yang paling populer di antara mesin ahli belajar daripada sigmoid
. Alasannya adalah bahwa nilai yang diharapkan tanh
sama dengan nol dan dan itu membantu belajar di lapisan yang lebih dalam untuk menjadi lebih cepat di jaring saraf. Relu
tidak memiliki karakteristik ini, tetapi mengapa itu bekerja dengan baik jika kita mengesampingkan keunggulan turunannya. Selain itu, saya kira turunannya juga dapat terpengaruh. Karena aktivasi (output dariRelu
) dilibatkan untuk menghitung aturan pembaruan.
17
CNN
normalisasi normal keluaranrelu
tidak umum? Setidaknya saya belum pernah melihat itu.Jawaban:
Keuntungan terbesar dari ReLu memang bukan saturasi gradiennya, yang sangat mempercepat konvergensi penurunan gradien stokastik dibandingkan dengan fungsi sigmoid / tanh ( kertas oleh Krizhevsky et al).
Tapi itu bukan satu-satunya keuntungan. Berikut ini adalah diskusi tentang efek sparsity dari aktivasi ReLu dan regularisasi yang diinduksi. Properti bagus lainnya adalah dibandingkan dengan tanh / sigmoid neuron yang melibatkan operasi yang mahal (eksponensial, dll.), ReLU dapat diimplementasikan dengan hanya menebang matriks aktivasi di nol.
Tapi saya tidak yakin bahwa sukses besar jaringan saraf modern adalah karena ReLu sendiri . Teknik inisialisasi baru, seperti inisialisasi Xavier, dropout dan (kemudian) batchnorm juga memainkan peran yang sangat penting. Misalnya, AlexNet yang terkenal menggunakan ReLu dan dropout.
Jadi untuk menjawab pertanyaan Anda: ReLu memiliki sifat yang sangat bagus, meskipun tidak ideal . Tapi itu benar-benar membuktikan diri ketika dikombinasikan dengan teknik-teknik hebat lainnya, yang dengan cara memecahkan masalah bukan-nol-pusat yang telah Anda sebutkan.
UPD: Output ReLu memang tidak berpusat pada nol dan itu benar-benar mengganggu kinerja NN. Tetapi masalah khusus ini dapat diatasi dengan teknik regularisasi lainnya, misalnya batchnorm, yang menormalkan sinyal sebelum aktivasi :
sumber