Fungsi biaya jaringan saraf adalah , dan diklaim non-cembung . Saya tidak begitu mengerti mengapa seperti itu, karena seperti yang saya lihat itu sangat mirip dengan fungsi biaya dari regresi logistik, kan?
Jika non-cembung, maka turunan urutan kedua , kan?
MEMPERBARUI
Berkat jawaban di bawah ini dan juga komentar @ gung, saya mengerti maksud Anda, jika tidak ada lapisan tersembunyi sama sekali, itu cembung, seperti halnya regresi logistik. Tetapi jika ada lapisan tersembunyi, dengan mengubah simpul di lapisan tersembunyi serta bobot dalam koneksi berikutnya, kita bisa memiliki beberapa solusi dari bobot yang menghasilkan kerugian yang sama.
Sekarang lebih banyak pertanyaan,
1) Ada beberapa minimum lokal, dan beberapa dari mereka harus memiliki nilai yang sama, karena mereka sesuai dengan beberapa node dan bobot permutasi, kan?
2) Jika node dan bobot tidak akan di permutasi sama sekali, maka itu cembung, kan? Dan minimum akan menjadi minimum global. Jika demikian, jawaban untuk 1) adalah, semua minimum lokal tersebut akan memiliki nilai yang sama, benar?
sumber
Jawaban:
Fungsi biaya jaringan saraf umumnya tidak cembung atau cekung. Ini berarti bahwa matriks semua turunan parsial kedua (Hessian) bukanlah semidefinit positif, atau semidefinit negatif. Karena turunan kedua adalah sebuah matriks, mungkin saja itu bukan satu atau yang lain.
Untuk membuat ini analog dengan fungsi satu variabel, dapat dikatakan bahwa fungsi biaya tidak berbentuk seperti grafik atau seperti grafik . Contoh lain dari fungsi non-cembung, non-cekung adalah pada . Salah satu perbedaan yang paling mencolok adalah bahwa hanya memiliki satu ekstrem, sedangkan memiliki banyak maxima dan minima. - x 2 sin ( x ) R ± x 2 sinx2 −x2 sin(x) R ±x2 sin
Bagaimana ini berhubungan dengan jaringan saraf kita? Fungsi biaya juga memiliki sejumlah maxima dan minima lokal, seperti yang Anda lihat dalam gambar ini , misalnya.J(W,b)
Fakta bahwa memiliki beberapa minimum juga dapat ditafsirkan dengan cara yang baik. Di setiap lapisan, Anda menggunakan beberapa node yang ditugaskan parameter yang berbeda untuk membuat fungsi biaya kecil. Kecuali untuk nilai-nilai parameter, node ini sama. Jadi Anda bisa bertukar parameter dari simpul pertama dalam satu lapisan dengan orang-orang dari simpul kedua di lapisan yang sama, dan memperhitungkan perubahan ini di lapisan berikutnya. Anda akan berakhir dengan serangkaian parameter yang berbeda, tetapi nilai fungsi biaya tidak dapat dibedakan dengan (pada dasarnya Anda hanya memindahkan node, ke tempat lain, tetapi menyimpan semua input / output yang sama).J
sumber
Jika Anda mengubah urutan neuron di lapisan tersembunyi dan melakukan permutasi yang sama pada bobot lapisan yang berdekatan maka kerugiannya tidak berubah. Oleh karena itu jika ada minimum global nol sebagai fungsi bobot, maka itu tidak bisa unik karena permutasi bobot memberikan minimum lain. Karenanya fungsinya bukan cembung.
sumber
Apakah fungsi objektifnya cembung atau tidak tergantung pada detail jaringan. Dalam kasus di mana beberapa minimum lokal ada, Anda bertanya apakah mereka semua setara. Secara umum, jawabannya adalah tidak, tetapi peluang untuk menemukan minimum lokal dengan kinerja generalisasi yang baik tampaknya meningkat dengan ukuran jaringan.
Makalah ini menarik:
Dari pendahuluan:
Mereka juga mengutip beberapa makalah yang menggambarkan bagaimana poin sadel adalah masalah yang lebih besar daripada minimum lokal ketika melatih jaringan besar.
sumber
Beberapa jawaban untuk pembaruan Anda:
Ya, secara umum ada beberapa minimum lokal. (Jika hanya ada satu, itu akan disebut minimum global.) Minima lokal tidak harus memiliki nilai yang sama. Secara umum, mungkin tidak ada minimum lokal yang berbagi nilai yang sama.
Tidak, ini bukan cembung kecuali jaringan satu lapis. Dalam kasus multi-layer umum, parameter lapisan selanjutnya (bobot dan parameter aktivasi) dapat menjadi fungsi yang sangat rekursif dari parameter di lapisan sebelumnya. Secara umum, penggandaan variabel keputusan yang diperkenalkan oleh beberapa struktur rekursif cenderung menghancurkan konveksitas. Contoh bagus lainnya adalah model MA (q) dalam analisis deret kali.
Catatan: Saya tidak benar-benar tahu apa yang Anda maksud dengan mengubah simpul dan bobot. Jika fungsi aktivasi bervariasi antar node, misalnya, dan Anda mengubah permutasi node, Anda pada dasarnya mengoptimalkan jaringan saraf yang berbeda. Yaitu, walaupun minima dari jaringan yang diijinkan ini mungkin adalah minima yang sama, ini bukan jaringan yang sama sehingga Anda tidak bisa membuat pernyataan tentang multiplisitas dari minima yang sama. Untuk analogi ini dalam kerangka kuadrat-terkecil, Anda misalnya menukar beberapa baris dan dan mengatakan itu karena minimumsama seperti sebelumnya bahwa ada banyak minimizers karena ada permutasi.y X ∥y−Xβ∥
sumber
Anda akan memiliki satu global minimum jika masalahnya cembung atau quasiconvex.
Tentang "blok bangunan" cembung selama membangun jaringan saraf (versi Ilmu Komputer)
Saya pikir ada beberapa dari mereka yang dapat disebutkan:
maks (0, x) - cembung dan bertambah
log-sum-exp - cembung dan meningkat di setiap parameter
y = Ax adalah afin dan cembung pada (A), mungkin meningkat mungkin menurun. y = Ax adalah affine dan cembung di (x), mungkin meningkat mungkin menurun.
Sayangnya itu bukan cembung dalam (A, x) karena terlihat seperti bentuk kuadrat tak terbatas.
Konvolusi diskrit matematika biasa (dengan "biasa" yang saya maksud didefinisikan dengan sinyal berulang) Y = h * X Terlihat bahwa itu adalah fungsi affine dari h atau variabel X. Jadi cembung dalam variabel h atau dalam variabel X. Tentang kedua variabel - Saya tidak berpikir begitu karena ketika h dan X konvolusi skalar akan berkurang menjadi bentuk kuadrat tak terbatas.
maks (f, g) - jika f dan g cembung maka maks (f, g) juga cembung.
Jika Anda mengganti satu fungsi ke fungsi lain dan membuat komposisi maka masih di ruang cembung untuk y = h (g (x), q (x)), tetapi h harus cembung dan harus meningkat (tidak berkurang) di setiap argumen. ...
Mengapa neural netwoks dalam non-cembung:
Saya pikir konvolusi Y = h * X tidak perlu meningkat dalam h. Jadi jika Anda tidak menggunakan asumsi tambahan tentang kernel Anda akan segera keluar dari optimasi cembung setelah Anda menerapkan konvolusi. Jadi tidak ada yang oke dengan komposisi .
Juga konvolusi dan perkalian matriks tidak cembung jika mempertimbangkan parameter pasangan seperti yang disebutkan di atas. Jadi ada masalah dengan multiplikasi matriks: ini adalah operasi non-cembung pada parameter (A, x)
y = Ax dapat berupa quasiconvex dalam (A, x) tetapi juga asumsi tambahan harus diperhitungkan.
Harap beri tahu saya jika Anda tidak setuju atau memiliki pertimbangan tambahan. Pertanyaannya juga sangat menarik bagi saya.
ps max-pooling - yang downsamping dengan memilih max terlihat seperti beberapa modifikasi dari operasi max elementwise dengan affine precomposition (untuk menarik blok kebutuhan) dan terlihat cembung untuk saya.
Tentang pertanyaan lain
Tidak, regresi logistik bukan cembung atau cekung, tetapi log-cekung. Ini berarti bahwa setelah menerapkan logaritma Anda akan memiliki fungsi cekung dalam variabel penjelas. Jadi di sini trik max log-likelihood sangat bagus.
Jika tidak hanya ada satu minimum global. Tidak ada yang bisa dikatakan tentang hubungan antara minimum lokal. Atau setidaknya Anda tidak dapat menggunakan optimasi cembung dan itu ekstensi untuk itu, karena bidang matematika ini sangat didasarkan pada underestimator global.
Mungkin Anda bingung tentang ini. Karena sesungguhnya orang yang membuat skema semacam itu hanya melakukan "sesuatu" dan mereka menerima "sesuatu". Sayangnya karena kami tidak memiliki mekanisme yang sempurna untuk mengatasi optimasi non-cembung (secara umum).
Tetapi ada hal-hal yang lebih sederhana di samping Neural Networks - yang tidak dapat diselesaikan seperti kuadrat terkecil non-linear - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)
sumber