Saya akan mengikuti kursus DeepAI Cousera (video Week3 1 "Ikhtisar Jaringan Saraf") dan Andrew Ng menjelaskan bagaimana setiap lapisan dalam jaringan saraf hanyalah regresi logistik yang lain, tetapi dia tidak menjelaskan bagaimana hal itu membuat segalanya menjadi lebih akurat.
Jadi dalam jaringan 2 layer, bagaimana cara menghitung logistik berkali-kali membuatnya lebih akurat?
Jawaban:
Ketika menggunakan fungsi aktivasi logistik, memang benar bahwa fungsi yang menghubungkan input setiap unit dengan outputnya sama dengan untuk regresi logistik. Tetapi, ini tidak benar-benar sama dengan setiap unit yang melakukan regresi logistik. Perbedaannya adalah bahwa, dalam regresi logistik, bobot dan bias dipilih sedemikian rupa sehingga output paling cocok dengan nilai target yang diberikan (menggunakan kerugian log / cross-entropy). Sebaliknya, unit tersembunyi di jaring saraf mengirimkan outputnya ke unit hilir. Tidak ada target output yang cocok dengan unit tersembunyi individu. Sebaliknya, bobot dan bias dipilih untuk meminimalkan beberapa fungsi objektif yang tergantung pada hasil akhir jaringan.
Daripada melakukan regresi logistik, mungkin lebih masuk akal untuk memikirkan setiap unit tersembunyi sebagai penghitungan koordinat dalam beberapa ruang fitur. Dari perspektif ini, tujuan dari lapisan tersembunyi adalah untuk mengubah inputnya - vektor input dipetakan ke vektor aktivasi lapisan tersembunyi. Anda dapat menganggap ini sebagai pemetaan input ke ruang fitur dengan dimensi yang sesuai dengan setiap unit tersembunyi.
Lapisan output sering dapat dianggap sebagai algoritma pembelajaran standar yang beroperasi di ruang fitur ini. Misalnya, dalam tugas klasifikasi, menggunakan unit output logistik dengan kehilangan entropi silang setara dengan melakukan regresi logistik di ruang fitur (atau regresi logistik multinomial jika menggunakan output softmax). Dalam tugas regresi, menggunakan output linier dengan kesalahan kuadrat setara dengan melakukan regresi kuadrat terkecil dalam ruang fitur.
Melatih jumlah jaringan untuk mempelajari pemetaan ruang fitur dan fungsi klasifikasi / regresi (dalam ruang fitur) yang, bersama-sama, memberikan kinerja terbaik. Dengan asumsi unit tersembunyi nonlinier, meningkatkan lebar lapisan tersembunyi atau menumpuk beberapa lapisan tersembunyi memungkinkan pemetaan ruang fitur yang lebih kompleks, sehingga memungkinkan fungsi yang lebih kompleks menjadi pas.
sumber
Salah satu cara untuk melihat kekuatan nonlinier adalah dengan mencatat teorema aproksimasi universal .
Meskipun dalam praktiknya tidak terlalu signifikan (ini tentang kemampuan jaringan lapisan tunggal), ia memberi tahu Anda bahwa jika Anda menggunakan jumlah sigmoids (panjang arbitrer) Anda pada prinsipnya dapat memperkirakan fungsi kontinu ke tingkat yang diinginkan. Jika Anda tahu teori Fourier atau ingat teorema aproksimasi Weierstrass seharusnya tidak mengejutkan.
sumber
Ketika ada lapisan tersembunyi yang ada di jaringan saraf, kami menambahkan fitur non-linear. Silakan periksa jawaban saya di sini untuk memahami.
apa yang membuat jaringan saraf model klasifikasi nonlinier?
Secara khusus, fungsi sigmoid bersarang akan lebih "kuat" daripada transformasi linear fitur asli dan satu fungsi sigmoid (regresi logistik.)
Ini adalah contoh numerik untuk menanggapi komentar OP.
sumber
Dalam regresi logistik standar kami memiliki 1 output di lapisan akhir. Namun dengan jaringan neural layer tersembunyi tunggal, kita dapat memiliki beberapa nilai menengah yang masing-masing dapat dianggap sebagai output dari model regresi logistik yang berbeda yaitu kita tidak hanya melakukan regresi logistik yang sama berulang kali. Maka bukan suatu lompatan besar untuk berpikir bahwa adalah mungkin bahwa kombinasi ini memiliki kemampuan ekspresif yang lebih besar daripada model regresi logistik standar (dan juga telah ditunjukkan dalam praktik dan teori ).
sumber