Seberapa fleksibel hubungan antara fungsi tujuan dan fungsi aktivasi lapisan keluaran?

Tampaknya standar dalam banyak paket jaringan saraf untuk memasangkan fungsi tujuan yang akan diminimalkan dengan fungsi aktivasi di lapisan output.

Sebagai contoh, untuk lapisan output linier yang digunakan untuk regresi adalah standar (dan seringkali hanya pilihan) untuk memiliki fungsi tujuan kesalahan kuadrat. Pasangan lain yang biasa adalah output logistik dan kehilangan log (atau cross-entropy). Dan yang lainnya adalah softmax dan multi-log loss.

Menggunakan notasi, untuk nilai pra-aktivasi (jumlah bobot kali aktivasi dari lapisan sebelumnya), untuk aktivasi, untuk kebenaran dasar yang digunakan untuk pelatihan, untuk indeks neuron output. $z$ $a$ $y$ $i$

Aktivasi linear berjalan dengan kuadrat galat $a_i=z_i$ $\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2$
Aktivasi Sigmoid $a_i = \frac{1}{1+e^{-z_i}}$ $-\sum\limits_{\forall i} (y_i*log(a_i) + (1-y_i)*log(1-a_i))$
$a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$ $-\sum\limits_{\forall i} (y_i*log(a_i))$

Itulah yang saya tahu, dan saya berharap masih banyak yang belum saya dengar.

$y$ yang berada di luar rentang?

Namun, sepertinya tidak terlalu buruk untuk mencoba output sigmoid dengan tujuan kesalahan kuadrat. Itu harus stabil dan bertemu setidaknya.

$\frac{\delta E}{\delta z}$ $E$ tanh

Apakah ada situasi ketika merancang arsitektur jaringan saraf, bahwa Anda akan atau harus menggunakan pasangan "non-standar" aktivasi output dan fungsi tujuan?

neural-network gradient-descent Neil Slater
sumber

Seberapa fleksibel hubungan antara fungsi tujuan dan fungsi aktivasi lapisan keluaran?

Jawaban: