Fungsi biaya jaringan saraf adalah non-cembung?

36

Fungsi biaya jaringan saraf adalah , dan diklaim non-cembung . Saya tidak begitu mengerti mengapa seperti itu, karena seperti yang saya lihat itu sangat mirip dengan fungsi biaya dari regresi logistik, kan?J(W,b)

Jika non-cembung, maka turunan urutan kedua , kan?JW<0

MEMPERBARUI

Berkat jawaban di bawah ini dan juga komentar @ gung, saya mengerti maksud Anda, jika tidak ada lapisan tersembunyi sama sekali, itu cembung, seperti halnya regresi logistik. Tetapi jika ada lapisan tersembunyi, dengan mengubah simpul di lapisan tersembunyi serta bobot dalam koneksi berikutnya, kita bisa memiliki beberapa solusi dari bobot yang menghasilkan kerugian yang sama.

Sekarang lebih banyak pertanyaan,

1) Ada beberapa minimum lokal, dan beberapa dari mereka harus memiliki nilai yang sama, karena mereka sesuai dengan beberapa node dan bobot permutasi, kan?

2) Jika node dan bobot tidak akan di permutasi sama sekali, maka itu cembung, kan? Dan minimum akan menjadi minimum global. Jika demikian, jawaban untuk 1) adalah, semua minimum lokal tersebut akan memiliki nilai yang sama, benar?

alpukat
sumber
Ini bukan cembung karena mungkin ada beberapa minimum lokal.
gung - Reinstate Monica
2
Tergantung pada jaringan saraf. Jaringan saraf dengan fungsi aktivasi linier dan kuadrat kerugian akan menghasilkan optimasi cembung (jika ingatan saya benar juga untuk jaringan fungsi dasar radial dengan varian tetap). Namun jaringan saraf banyak digunakan dengan fungsi aktivasi non-linear (yaitu sigmoid), maka optimasi menjadi non-cembung.
Cagdas Ozgenc
@ung, saya mengerti maksud Anda, dan sekarang saya punya pertanyaan lagi, silakan lihat pembaruan saya :-)
alpukat
5
Pada titik ini (2 tahun kemudian), mungkin lebih baik untuk menggulung pertanyaan Anda kembali ke versi sebelumnya, menerima salah satu jawaban di bawah, dan mengajukan pertanyaan baru, tindak lanjut yang terkait dengan konteks ini.
gung - Reinstate Monica
1
@ung, ya Anda benar, tapi sekarang saya tidak yakin tentang beberapa aspek dari jawaban yang saya pilih sebelumnya. Yah, karena saya telah meninggalkan beberapa komentar baru pada jawaban di bawah, saya akan menunggu beberapa saat untuk melihat apakah perlu meminta yang baru.
alpukat

Jawaban:

25

Fungsi biaya jaringan saraf umumnya tidak cembung atau cekung. Ini berarti bahwa matriks semua turunan parsial kedua (Hessian) bukanlah semidefinit positif, atau semidefinit negatif. Karena turunan kedua adalah sebuah matriks, mungkin saja itu bukan satu atau yang lain.

Untuk membuat ini analog dengan fungsi satu variabel, dapat dikatakan bahwa fungsi biaya tidak berbentuk seperti grafik atau seperti grafik . Contoh lain dari fungsi non-cembung, non-cekung adalah pada . Salah satu perbedaan yang paling mencolok adalah bahwa hanya memiliki satu ekstrem, sedangkan memiliki banyak maxima dan minima. - x 2 sin ( x ) R ± x 2 sinx2x2sin(x)R±x2sin

Bagaimana ini berhubungan dengan jaringan saraf kita? Fungsi biaya juga memiliki sejumlah maxima dan minima lokal, seperti yang Anda lihat dalam gambar ini , misalnya.J(W,b)

Fakta bahwa memiliki beberapa minimum juga dapat ditafsirkan dengan cara yang baik. Di setiap lapisan, Anda menggunakan beberapa node yang ditugaskan parameter yang berbeda untuk membuat fungsi biaya kecil. Kecuali untuk nilai-nilai parameter, node ini sama. Jadi Anda bisa bertukar parameter dari simpul pertama dalam satu lapisan dengan orang-orang dari simpul kedua di lapisan yang sama, dan memperhitungkan perubahan ini di lapisan berikutnya. Anda akan berakhir dengan serangkaian parameter yang berbeda, tetapi nilai fungsi biaya tidak dapat dibedakan dengan (pada dasarnya Anda hanya memindahkan node, ke tempat lain, tetapi menyimpan semua input / output yang sama).J

Roland
sumber
OK, saya mengerti penjelasan permutasi yang Anda buat, saya pikir itu masuk akal, tapi sekarang saya bertanya-tanya apakah ini yang asli untuk menjelaskan mengapa neural net adalah non-cembung?
alpukat
1
Apa yang Anda maksud dengan 'yang asli'?
Roland
Maksud saya, ini harus ditafsirkan, bukan hanya analogi.
alpukat
4
@loganecolss Anda benar bahwa ini bukan satu-satunya alasan mengapa fungsi biaya non-cembung, tetapi salah satu alasan yang paling jelas. Bergantung pada jaringan dan set pelatihan, mungkin ada alasan lain mengapa ada beberapa minimum. Tetapi intinya adalah: Permuasi sendiri menciptakan non-konveksitas, terlepas dari efek lainnya.
Roland
1
Maaf, saya tidak bisa mengerti paragraf terakhir. Tapi saya juga salah paham mengapa saya sebutkan maks (0, x) di sini. Dalam hal apapun - saya pikir cara yang benar untuk menunjukkan bahwa mungkin ada beberapa mode (beberapa minimum lokal) membuktikannya dalam beberapa cara. ps Jika Hessian tidak pasti itu mengatakan apa-apa - fungsi quasiconvex dapat memiliki Hessian tidak terbatas tetapi masih unimodal.
bruziuz
17

Jika Anda mengubah urutan neuron di lapisan tersembunyi dan melakukan permutasi yang sama pada bobot lapisan yang berdekatan maka kerugiannya tidak berubah. Oleh karena itu jika ada minimum global nol sebagai fungsi bobot, maka itu tidak bisa unik karena permutasi bobot memberikan minimum lain. Karenanya fungsinya bukan cembung.

Abhinav
sumber
5

Apakah fungsi objektifnya cembung atau tidak tergantung pada detail jaringan. Dalam kasus di mana beberapa minimum lokal ada, Anda bertanya apakah mereka semua setara. Secara umum, jawabannya adalah tidak, tetapi peluang untuk menemukan minimum lokal dengan kinerja generalisasi yang baik tampaknya meningkat dengan ukuran jaringan.

Makalah ini menarik:

Choromanska et al. (2015). Kerugian Permukaan Jaringan Multilayer

http://arxiv.org/pdf/1412.0233v3.pdf

Dari pendahuluan:

  • Untuk jaringan ukuran besar, sebagian besar minimum lokal setara dan menghasilkan kinerja yang serupa pada set tes.

  • Probabilitas menemukan minimum lokal "buruk" (bernilai tinggi) adalah nol untuk jaringan ukuran kecil dan menurun dengan cepat dengan ukuran jaringan.

  • Berjuang untuk menemukan minimum global pada set pelatihan (sebagai lawan dari salah satu dari banyak lokal yang baik) tidak berguna dalam praktik dan dapat menyebabkan overfitting.

Mereka juga mengutip beberapa makalah yang menggambarkan bagaimana poin sadel adalah masalah yang lebih besar daripada minimum lokal ketika melatih jaringan besar.

pengguna20160
sumber
4

Beberapa jawaban untuk pembaruan Anda:

  1. Ya, secara umum ada beberapa minimum lokal. (Jika hanya ada satu, itu akan disebut minimum global.) Minima lokal tidak harus memiliki nilai yang sama. Secara umum, mungkin tidak ada minimum lokal yang berbagi nilai yang sama.

  2. Tidak, ini bukan cembung kecuali jaringan satu lapis. Dalam kasus multi-layer umum, parameter lapisan selanjutnya (bobot dan parameter aktivasi) dapat menjadi fungsi yang sangat rekursif dari parameter di lapisan sebelumnya. Secara umum, penggandaan variabel keputusan yang diperkenalkan oleh beberapa struktur rekursif cenderung menghancurkan konveksitas. Contoh bagus lainnya adalah model MA (q) dalam analisis deret kali.

Catatan: Saya tidak benar-benar tahu apa yang Anda maksud dengan mengubah simpul dan bobot. Jika fungsi aktivasi bervariasi antar node, misalnya, dan Anda mengubah permutasi node, Anda pada dasarnya mengoptimalkan jaringan saraf yang berbeda. Yaitu, walaupun minima dari jaringan yang diijinkan ini mungkin adalah minima yang sama, ini bukan jaringan yang sama sehingga Anda tidak bisa membuat pernyataan tentang multiplisitas dari minima yang sama. Untuk analogi ini dalam kerangka kuadrat-terkecil, Anda misalnya menukar beberapa baris dan dan mengatakan itu karena minimumsama seperti sebelumnya bahwa ada banyak minimizers karena ada permutasi.yXyXβ

Mustafa S Eisa
sumber
1
"jaringan satu lapis" akan seperti apa "softmax" atau regresi logistik, kan?
alpukat
Dengan "mengubah simpul dan bobot", maksud saya "bertukar", dan itulah yang saya dapatkan dari 2 jawaban lama di atas, dan ketika saya memahami jawaban mereka, dengan "menukar" simpul dan bobot dalam lapisan tersembunyi , kita mungkin akhirnya memiliki output yang sama dalam teori, dan itu sebabnya kita mungkin memiliki beberapa minimum Maksudmu penjelasan ini tidak benar?
alpukat
Anda memiliki ide yang tepat, tetapi tidak persis sama. Untuk jaringan, kerugian mungkin tidak harus berupa kerugian binomial, fungsi aktivasi mungkin tidak harus sigmoids, dll.
Mustafa S Eisa
Ya, saya pikir itu tidak benar. Meskipun benar bahwa Anda akan mendapatkan kinerja yang sama baik Anda mengubah istilah ini atau tidak, ini tidak menentukan convexity atau non-convexity dari masalah apa pun. Masalah optimisasi adalah cembung jika, untuk fungsi kerugian tetap (bukan permutasi dari ketentuan dalam kerugian), fungsi objektifnya adalah cembung pada parameter model dan wilayah yang layak di mana Anda mengoptimalkan adalah cembung dan tertutup.
Mustafa S Eisa
Begitu ya, jadi kalau itu "satu-lapisan", itu mungkin bukan "softmax".
alpukat
2

Anda akan memiliki satu global minimum jika masalahnya cembung atau quasiconvex.

Tentang "blok bangunan" cembung selama membangun jaringan saraf (versi Ilmu Komputer)

Saya pikir ada beberapa dari mereka yang dapat disebutkan:

  1. maks (0, x) - cembung dan bertambah

  2. log-sum-exp - cembung dan meningkat di setiap parameter

  3. y = Ax adalah afin dan cembung pada (A), mungkin meningkat mungkin menurun. y = Ax adalah affine dan cembung di (x), mungkin meningkat mungkin menurun.

Sayangnya itu bukan cembung dalam (A, x) karena terlihat seperti bentuk kuadrat tak terbatas.

  1. Konvolusi diskrit matematika biasa (dengan "biasa" yang saya maksud didefinisikan dengan sinyal berulang) Y = h * X Terlihat bahwa itu adalah fungsi affine dari h atau variabel X. Jadi cembung dalam variabel h atau dalam variabel X. Tentang kedua variabel - Saya tidak berpikir begitu karena ketika h dan X konvolusi skalar akan berkurang menjadi bentuk kuadrat tak terbatas.

  2. maks (f, g) - jika f dan g cembung maka maks (f, g) juga cembung.

Jika Anda mengganti satu fungsi ke fungsi lain dan membuat komposisi maka masih di ruang cembung untuk y = h (g (x), q (x)), tetapi h harus cembung dan harus meningkat (tidak berkurang) di setiap argumen. ...

Mengapa neural netwoks dalam non-cembung:

  1. Saya pikir konvolusi Y = h * X tidak perlu meningkat dalam h. Jadi jika Anda tidak menggunakan asumsi tambahan tentang kernel Anda akan segera keluar dari optimasi cembung setelah Anda menerapkan konvolusi. Jadi tidak ada yang oke dengan komposisi .

  2. Juga konvolusi dan perkalian matriks tidak cembung jika mempertimbangkan parameter pasangan seperti yang disebutkan di atas. Jadi ada masalah dengan multiplikasi matriks: ini adalah operasi non-cembung pada parameter (A, x)

  3. y = Ax dapat berupa quasiconvex dalam (A, x) tetapi juga asumsi tambahan harus diperhitungkan.

Harap beri tahu saya jika Anda tidak setuju atau memiliki pertimbangan tambahan. Pertanyaannya juga sangat menarik bagi saya.

ps max-pooling - yang downsamping dengan memilih max terlihat seperti beberapa modifikasi dari operasi max elementwise dengan affine precomposition (untuk menarik blok kebutuhan) dan terlihat cembung untuk saya.

Tentang pertanyaan lain

  1. Tidak, regresi logistik bukan cembung atau cekung, tetapi log-cekung. Ini berarti bahwa setelah menerapkan logaritma Anda akan memiliki fungsi cekung dalam variabel penjelas. Jadi di sini trik max log-likelihood sangat bagus.

  2. Jika tidak hanya ada satu minimum global. Tidak ada yang bisa dikatakan tentang hubungan antara minimum lokal. Atau setidaknya Anda tidak dapat menggunakan optimasi cembung dan itu ekstensi untuk itu, karena bidang matematika ini sangat didasarkan pada underestimator global.

Mungkin Anda bingung tentang ini. Karena sesungguhnya orang yang membuat skema semacam itu hanya melakukan "sesuatu" dan mereka menerima "sesuatu". Sayangnya karena kami tidak memiliki mekanisme yang sempurna untuk mengatasi optimasi non-cembung (secara umum).

Tetapi ada hal-hal yang lebih sederhana di samping Neural Networks - yang tidak dapat diselesaikan seperti kuadrat terkecil non-linear - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

bruziuz
sumber