Guru saya membuktikan bahwa turunan kedua dari cross-entropy selalu positif, sehingga fungsi biaya jaringan saraf menggunakan cross entropy adalah cembung. Apakah ini benar? Saya cukup bingung tentang ini karena saya selalu belajar bahwa fungsi biaya JST adalah non-cembung. Adakah yang bisa mengkonfirmasi ini? Terima kasih banyak! http://z0rch.com/2014/06/05/cross-entropy-cost-function
neural-networks
convex
xuancanh
sumber
sumber
Jawaban:
Entropi silang dari keluarga eksponensial selalu cembung. Jadi, untuk jaringan saraf multilayer yang memiliki input , bobot , dan output , dan fungsi kerugianx w y L
adalah cembung. Namun,
tidak akan menjadi cembung untuk parameter lapisan tengah karena alasan yang dijelaskan oleh iamonaboat.
sumber
Apa yang dikatakan @ngiann, dan secara informal, jika Anda mengubah urutan neuron di lapisan tersembunyi dan melakukan permutasi yang sama pada bobot lapisan yang berdekatan maka kerugiannya tidak berubah.
Karenanya, jika ada minimum global nol sebagai fungsi bobot, maka itu tidak bisa unik karena permutasi bobot memberikan minimum global yang lain. Karenanya fungsinya tidak cembung.
Matriks dari semua turunan parsial kedua (Hessian) bukanlah semidefinit positif, atau semidefinit negatif. Karena turunan kedua adalah sebuah matriks, mungkin saja itu bukan salah satunya.
sumber
Anda benar dalam mencurigai bahwa masalah optimasi JST dari masalah lintas-entropi akan menjadi non-cembung. Catatan: kita berbicara tentang jaringan saraf dengan fungsi aktivasi non-linear di lapisan tersembunyi. Jika Anda tidak menggunakan fungsi aktivasi non-linear maka JST Anda menerapkan fungsi linear dan masalahnya akan menjadi cembung.
Jadi alasan mengapa optimalisasi cross-entropy dari JST adalah non-cembung adalah karena parametrisation yang mendasari JST. Jika Anda menggunakan jaringan saraf linier, Anda dapat membuatnya cembung (pada dasarnya akan terlihat seperti regresi logistik yang merupakan masalah cembung).
sumber