Seberapa fleksibel hubungan antara fungsi tujuan dan fungsi aktivasi lapisan keluaran?

10

Tampaknya standar dalam banyak paket jaringan saraf untuk memasangkan fungsi tujuan yang akan diminimalkan dengan fungsi aktivasi di lapisan output.

Sebagai contoh, untuk lapisan output linier yang digunakan untuk regresi adalah standar (dan seringkali hanya pilihan) untuk memiliki fungsi tujuan kesalahan kuadrat. Pasangan lain yang biasa adalah output logistik dan kehilangan log (atau cross-entropy). Dan yang lainnya adalah softmax dan multi-log loss.

Menggunakan notasi, untuk nilai pra-aktivasi (jumlah bobot kali aktivasi dari lapisan sebelumnya), a untuk aktivasi, y untuk kebenaran dasar yang digunakan untuk pelatihan, i untuk indeks neuron output.zSebuahysaya

  • Aktivasi linear berjalan dengan kuadrat galat 1Sebuahsaya=zsaya12saya(ysaya-Sebuahsaya)2

  • Aktivasi Sigmoid Sebuahsaya=11+e-zsaya-saya(ysayalHaig(Sebuahsaya)+(1-ysaya)lHaig(1-Sebuahsaya))

  • Sebuahsaya=ezsayajezj-saya(ysayalHaig(Sebuahsaya))

Itulah yang saya tahu, dan saya berharap masih banyak yang belum saya dengar.

y yang berada di luar rentang?

Namun, sepertinya tidak terlalu buruk untuk mencoba output sigmoid dengan tujuan kesalahan kuadrat. Itu harus stabil dan bertemu setidaknya.

δEδzEtanh

Apakah ada situasi ketika merancang arsitektur jaringan saraf, bahwa Anda akan atau harus menggunakan pasangan "non-standar" aktivasi output dan fungsi tujuan?

Neil Slater
sumber

Jawaban:

4

Fungsi aktivasi yang Anda gunakan tidak menentukan fungsi kerugian apa yang harus Anda gunakan, tetapi apa interpretasi yang Anda miliki dari output.

Jika output seharusnya berupa probabilitas, maka log-loss adalah jalan yang harus ditempuh.

Jika output adalah nilai generik maka berarti kuadrat kesalahan adalah cara default untuk pergi. Jadi misalnya, jika output Anda adalah piksel skala abu-abu dengan skala abu-abu berlabel angka 0 hingga 1, mungkin masuk akal untuk menggunakan fungsi aktivasi sigmoid dengan fungsi tujuan kesalahan kuadrat rata-rata.

patapouf_ai
sumber