Apa yang terjadi ketika saya mencampur fungsi aktivasi?

10

Ada beberapa fungsi aktivasi, seperti ReLU, sigmoid atau tanh . Apa yang terjadi ketika saya mencampur fungsi aktivasi?

Baru-baru ini saya menemukan bahwa Google telah mengembangkan fungsi aktivasi Swish yang (x * sigmoid). Dengan mengubah fungsi aktivasi, bisakah ia meningkatkan akurasi pada masalah jaringan saraf kecil seperti masalah XOR?

JSChang
sumber

Jawaban:

2

Jawaban umum untuk perilaku menggabungkan fungsi aktivasi umum adalah bahwa hukum kalkulus harus diterapkan, khususnya kalkulus diferensial, hasilnya harus diperoleh melalui percobaan untuk memastikan kualitas fungsi yang dikumpulkan, dan kompleksitas tambahan kemungkinan akan terjadi. menambah waktu komputasi. Pengecualian untuk peningkatan tersebut adalah ketika beban komputasi kombinasi kecil dibandingkan dengan keunggulan konvergensi yang diberikan kombinasi.

Ini tampaknya benar dari Swish, nama yang diberikan untuk fungsi aktivasi yang didefinisikan sebagai

f(x)=xS(βx),

f()Sβ

Tampaknya tidak dikembangkan oleh Google. Makalah yang awalnya diserahkan secara anonim (untuk tinjauan double blind sebagai makalah ICLR 2018), Mencari Fungsi Aktivasi , ditulis oleh Prajit Ramachandran, Barret Zoph, dan Quoc V. Le sekitar 2017. Ini adalah klaim mereka.

Eksperimen kami menunjukkan bahwa fungsi aktivasi yang paling baik ditemukan, ... Swish, ... cenderung bekerja lebih baik daripada ReLU pada model yang lebih dalam di sejumlah set data yang menantang.

Setiap perubahan dalam fungsi aktivasi untuk setiap satu lapisan akan, kecuali dalam kasus yang jarang terjadi secara astronomis, ketepatan dampak, keandalan, dan efisiensi komputasi. Apakah perubahan itu signifikan tidak dapat digeneralisasi. Itu sebabnya ide-ide baru diuji terhadap set data yang secara tradisional digunakan untuk mengukur kegunaan 1 .

Menggabungkan fungsi aktivasi untuk membentuk fungsi aktivasi baru tidak umum. Misalnya, AlexNet tidak menggabungkannya. 2 . Namun demikian, sangat umum untuk menggunakan fungsi aktivasi yang berbeda pada lapisan berbeda dari satu desain jaringan yang efektif.


Catatan kaki

[1] Apakah tradisi-tradisi ini menciptakan bias adalah pertanyaan lain. Mereka yang mengikuti teori analisis kasus penggunaan dipelopori oleh ilmuwan komputer Swedia Ivar Hjalmar Jacobson atau 6 ide Sigma akan mengatakan bahwa tes ini adalah unit test, bukan tes fungsional terhadap kasus penggunaan dunia nyata, dan mereka ada benarnya.

[2] Untuk memperbaiki kesalahpahaman yang mungkin muncul dari jawaban lain, AlexNet, nama yang diberikan untuk pendekatan yang diuraikan dalam Klasifikasi ImageNet dengan Deep Nevolute Neural Networks (2012) oleh Alex Krizhevsky, Ilya Sutskever, dan Geoffrey E. Hinton dari University of Toronto, tidak melibatkan penggabungan fungsi aktivasi untuk membentuk yang baru. Mereka menulis ini.

Output dari lapisan yang sepenuhnya terhubung terakhir diumpankan ke softmax 1000 arah yang menghasilkan distribusi lebih dari 1000 label kelas.

...

ReLU non-linearitas diterapkan pada output setiap lapisan yang konvolusional dan terhubung sepenuhnya. Lapisan internal ReLU murni dan lapisan output adalah Softmax.

Ada juga kernel konvolusi dan lapisan penyatuan dalam serangkaian lapisan pendekatan AlexNet yang digunakan oleh mereka, dan desain telah digunakan secara umum sejak mereka memenangkan kompetisi ImageNet pada tahun 2012. Pendekatan lain telah memenangkan kompetisi berikutnya.

Douglas Daseeco
sumber