Saya belum melihat pertanyaan yang dinyatakan secara tepat dalam istilah ini, dan inilah mengapa saya membuat pertanyaan baru.
Apa yang saya tertarik ketahui bukanlah definisi jaringan saraf, tetapi memahami perbedaan yang sebenarnya dengan jaringan saraf yang mendalam.
Untuk lebih banyak konteks: Saya tahu apa itu jaringan syaraf dan bagaimana backpropagation bekerja. Saya tahu bahwa DNN harus memiliki beberapa lapisan tersembunyi. Namun, 10 tahun yang lalu di kelas I belajar bahwa memiliki beberapa lapisan atau satu lapisan (tidak termasuk lapisan input dan output) adalah setara dalam hal fungsi-fungsi yang dapat diwakili oleh jaringan saraf (lihat teorema pendekatan universal Cybenko ), dan bahwa memiliki lebih banyak lapisan membuatnya lebih kompleks untuk dianalisis tanpa mendapatkan kinerja. Jelas, bukan itu masalahnya lagi.
Saya kira, mungkin salah, bahwa perbedaan dalam hal algoritma pelatihan dan sifat daripada struktur, dan karena itu saya akan sangat menghargai jika jawabannya dapat menggarisbawahi alasan yang membuat pindah ke DNN mungkin (misalnya bukti matematika atau bermain secara acak dengan jaringan) ?) dan diinginkan (misalnya kecepatan konvergensi?)
sumber
Jawaban:
Mari kita mulai dengan triviliaty: Deep neural network hanyalah jaringan feedforward dengan banyak lapisan tersembunyi.
Ini kurang lebih semua yang bisa dikatakan tentang definisi. Jaringan saraf dapat berulang atau diteruskan; feedforward yang tidak memiliki loop dalam grafik mereka dan dapat diatur dalam lapisan. Jika ada "banyak" lapisan, maka kita katakan bahwa jaringannya dalam .
Berapa banyak lapisan yang harus dimiliki suatu jaringan agar memenuhi syarat sedalam itu? Tidak ada jawaban pasti untuk ini (ini seperti menanyakan berapa banyak butiran yang membuat tumpukan ), tetapi biasanya memiliki dua atau lebih lapisan tersembunyi yang diperhitungkan sedalam mungkin. Sebaliknya, jaringan dengan hanya satu lapisan tersembunyi secara konvensional disebut "dangkal". Saya menduga bahwa akan ada beberapa inflasi yang terjadi di sini, dan dalam sepuluh tahun orang mungkin berpikir bahwa apa pun dengan kurang dari, katakanlah, sepuluh lapis adalah dangkal dan hanya cocok untuk latihan taman kanak-kanak. Secara informal, "dalam" menunjukkan bahwa jaringan itu sulit untuk ditangani.
Berikut ini adalah ilustrasi, diadaptasi dari sini :
Tetapi pertanyaan sebenarnya yang Anda tanyakan adalah, tentu saja, Mengapa memiliki banyak lapisan bermanfaat?
Saya pikir jawaban yang agak mencengangkan adalah tidak ada yang benar-benar tahu. Ada beberapa penjelasan umum yang akan saya ulas secara singkat di bawah ini, tetapi tidak satupun dari mereka yang secara meyakinkan terbukti benar, dan orang bahkan tidak dapat memastikan bahwa memiliki banyak lapisan benar - benar bermanfaat.
Saya mengatakan bahwa ini mencengangkan, karena pembelajaran yang dalam sangat populer, memecahkan semua catatan (dari pengenalan gambar, bermain Go, ke terjemahan otomatis, dll.) Setiap tahun, digunakan oleh industri, dll. Dan kita masih belum cukup yakin mengapa ia bekerja sangat baik.
Aku mendasarkan diskusi saya di Belajar Jauh buku oleh Goodfellow, Bengio, dan Courville yang keluar pada tahun 2017 dan secara luas dianggap sebagai yang buku tentang pembelajaran yang mendalam. (Ini tersedia secara online secara gratis.) Bagian yang relevan adalah 6.4.1 Sifat dan Kedalaman Pendekatan Universal .
Anda yang menulisnya
Anda harus merujuk pada apa yang disebut teorema aproksimasi Universal , dibuktikan oleh Cybenko pada tahun 1989 dan digeneralisasi oleh berbagai orang di tahun 1990-an. Pada dasarnya dikatakan bahwa jaringan saraf dangkal (dengan 1 lapisan tersembunyi) dapat mendekati fungsi apa pun , yaitu pada prinsipnya dapat mempelajari apa saja . Hal ini berlaku untuk berbagai fungsi aktivasi nonlinier, termasuk unit linear yang diperbaiki yang sebagian besar jaringan saraf gunakan saat ini (buku teks referensi Leshno et al. 1993 untuk hasil ini).
Jika demikian, mengapa semua orang menggunakan jaring yang dalam?
Yah, jawaban yang naif adalah karena mereka bekerja lebih baik. Berikut adalah gambar dari buku Deep Learning yang menunjukkan bahwa membantu memiliki lebih banyak lapisan dalam satu tugas tertentu, tetapi fenomena yang sama sering diamati di berbagai tugas dan domain:
Kita tahu bahwa jaringan yang dangkal dapat bekerja sebaik jaringan yang lebih dalam. Tetapi tidak; dan biasanya tidak. Pertanyaannya adalah --- mengapa? Jawaban yang memungkinkan:
Buku Deep Learning mengemukakan poin-poin # 1 dan # 3. Pertama, ia berpendapat bahwa jumlah unit dalam jaringan yang dangkal tumbuh secara eksponensial dengan kompleksitas tugas. Jadi agar berguna, jaringan yang dangkal mungkin harus sangat besar; mungkin jauh lebih besar dari jaringan yang dalam. Ini didasarkan pada sejumlah makalah yang membuktikan bahwa jaringan dangkal dalam beberapa kasus membutuhkan banyak neuron secara eksponensial; tetapi apakah klasifikasi MNIST atau Go Playing adalah kasus seperti itu tidak benar-benar jelas. Kedua, buku ini mengatakan ini:
Saya pikir "konsensus" saat ini adalah bahwa itu adalah kombinasi dari poin-poin # 1 dan # 3: untuk tugas-tugas dunia nyata, arsitektur yang dalam sering kali bermanfaat dan arsitektur yang dangkal akan tidak efisien dan membutuhkan lebih banyak neuron untuk kinerja yang sama.
Tapi itu masih jauh dari terbukti. Pertimbangkan misalnya Zagoruyko dan Komodakis, 2016, Wide Residual Networks . Jaringan residual dengan 150+ lapisan muncul pada 2015 dan memenangkan berbagai kontes pengenalan gambar. Ini adalah kesuksesan besar dan tampak seperti argumen yang meyakinkan yang mendukung kedalaman; di sini adalah satu gambar dari presentasi oleh penulis pertama pada kertas jaringan sisa (perhatikan bahwa waktu yang membingungkan pergi ke kiri di sini):
Tetapi kertas yang terhubung di atas menunjukkan bahwa jaringan residu "lebar" dengan "hanya" 16 lapisan dapat mengungguli yang "dalam" dengan 150+ lapisan. Jika ini benar, maka seluruh poin dari gambar di atas rusak.
Atau pertimbangkan Ba dan Caruana, 2014, Apakah Jaring Yang Dalam Sangat Perlu Menjadi Dalam? :
Jika benar, ini berarti bahwa penjelasan yang benar adalah peluru saya # 2, dan bukan # 1 atau # 3.
Seperti yang saya katakan --- belum ada yang tahu pasti.
Komentar penutup
Jumlah kemajuan yang dicapai dalam pembelajaran mendalam atas ~ 10 tahun terakhir benar-benar menakjubkan, tetapi sebagian besar kemajuan ini dicapai dengan trial and error, dan kami masih kekurangan pemahaman dasar tentang apa yang sebenarnya membuat jaring yang mendalam untuk bekerja dengan baik. Bahkan daftar hal-hal yang orang anggap penting untuk membangun jaringan mendalam yang efektif tampaknya berubah setiap beberapa tahun.
Kebangkitan pembelajaran yang dalam dimulai pada tahun 2006 ketika Geoffrey Hinton (yang telah bekerja pada jaringan saraf selama 20 tahun lebih tanpa minat banyak orang) menerbitkan beberapa makalah terobosan yang menawarkan cara yang efektif untuk melatih jaringan yang dalam ( kertas Sains , kertas perhitungan Neural ) . Caranya adalah dengan menggunakan pra-pelatihan tanpa pengawasan sebelum memulai gradient descent. Makalah-makalah ini merevolusi lapangan, dan selama beberapa tahun orang berpikir bahwa pra-pelatihan tanpa pengawasan adalah kuncinya.
Kemudian pada tahun 2010 Martens menunjukkan bahwa jaringan saraf yang dalam dapat dilatih dengan metode orde dua (disebut metode bebas Hessian) dan dapat mengungguli jaringan yang dilatih dengan pra-pelatihan: Pembelajaran mendalam melalui pengoptimalan bebas Hessian . Kemudian pada 2013 Sutskever et al. menunjukkan bahwa gradien keturunan stochastic dengan beberapa trik yang sangat pintar dapat mengungguli metode bebas Hessian: Pada pentingnya inisialisasi dan momentum dalam pembelajaran yang mendalam . Juga, sekitar 2010 orang menyadari bahwa menggunakan unit linear yang diperbaiki alih-alih unit sigmoid membuat perbedaan besar untuk gradient descent. Dropout muncul pada 2014. Jaringan residual muncul pada 2015. Orang-orang terus memunculkan cara yang lebih dan lebih efektif untuk melatih jaringan dalam danapa yang tampak seperti wawasan kunci 10 tahun yang lalu sering dianggap sebagai gangguan saat ini. Semua itu sebagian besar didorong oleh coba-coba dan ada sedikit pemahaman tentang apa yang membuat beberapa hal bekerja dengan baik dan beberapa hal lainnya tidak. Melatih jaringan yang dalam adalah seperti sekumpulan besar trik. Trik yang berhasil biasanya dirasionalisasi post factum.
Kami bahkan tidak tahu mengapa jaringan yang dalam mencapai puncak kinerja; hanya 10 tahun orang menyalahkan minima lokal, tetapi pemikiran saat ini adalah bahwa ini bukan intinya (ketika kinerja tinggi, gradien cenderung tetap besar). Ini adalah pertanyaan mendasar tentang jaringan yang dalam, dan kami bahkan tidak tahu ini .
Pembaruan: Ini kurang lebih adalah subjek pembicaraan NIPS 2017 Ali Rahimi tentang pembelajaran mesin sebagai alkimia: https://www.youtube.com/watch?v=Qi1Yry33TQE .
[Jawaban ini sepenuhnya ditulis ulang pada bulan April 2017, jadi beberapa komentar di bawah ini tidak berlaku lagi.]
sumber
Jawaban yang bagus sejauh ini, meskipun ada beberapa hal yang tidak ada yang disebutkan di sini, inilah $ 0,02 saya
Saya hanya akan menjawab dalam bentuk cerita, harus membuat semuanya lebih menyenangkan dan jelas. Tidak ada tldr di sini. Dalam prosesnya Anda harus bisa memahami apa perbedaannya.
Ada beberapa alasan mengapa DNN memicu ketika mereka melakukannya (bintang harus sejajar, seperti semua hal serupa, itu hanya masalah tempat yang tepat, waktu yang tepat, dll).
Salah satu alasannya adalah ketersediaan data, banyak data (data berlabel). Jika Anda ingin dapat menggeneralisasi dan mempelajari sesuatu seperti 'generic priors' atau 'universal priors' (alias blok bangunan dasar yang dapat digunakan kembali di antara tugas / aplikasi) maka Anda memerlukan banyak data. Dan data liar, mungkin saya tambahkan, tidak set data steril dicatat dengan hati-hati di laboratorium dengan pencahayaan terkontrol dan semua. Mekanik Turk memungkinkan (memberi label).
Kedua, kemungkinan untuk melatih jaringan yang lebih besar lebih cepat menggunakan GPU membuat eksperimen lebih cepat. Unit ReLU membuat hal-hal komputasi lebih cepat juga dan menyediakan regularisasi mereka karena Anda perlu menggunakan lebih banyak unit dalam satu lapisan untuk dapat mengompres informasi yang sama karena lapisan sekarang lebih jarang, sehingga juga berjalan baik dengan putus sekolah. Juga, mereka membantu dengan masalah penting yang terjadi ketika Anda menumpuk banyak lapisan. Lebih lanjut tentang itu nanti. Berbagai macam trik yang meningkatkan kinerja. Seperti menggunakan mini-batch (yang sebenarnya merugikan untuk kesalahan akhir) atau konvolusi (yang sebenarnya tidak menangkap varians sebanyak bidang reseptif lokal) tetapi komputasi lebih cepat.
Sementara itu, orang-orang berdebat jika mereka menyukai mereka yang lebih kurus atau lebih gemuk, lebih kecil atau lebih tinggi, dengan atau tanpa bintik-bintik, dll. Optimasi itu seperti gagal atau tidak meledak sehingga penelitian bergerak menuju metode pelatihan yang lebih kompleks seperti gradien konjugat dan metode newton, akhirnya mereka semua menyadari tidak ada makan siang gratis. Jaringan bersendawa.
Apa yang memperlambat segalanya adalah masalah gradien menghilang . Orang-orang pergi seperti: whoa, itu jauh sekali, bung! Singkatnya itu berarti sulit untuk menyesuaikan kesalahan pada lapisan lebih dekat ke input. Saat Anda menambahkan lebih banyak lapisan pada kue, menjadi terlalu goyah. Anda tidak dapat kembali menyebarkan kesalahan yang berarti kembali ke lapisan pertama. Semakin banyak layer, semakin buruk. Kekecewaan.
Beberapa orang tahu bahwa menggunakan cross-entropy sebagai fungsi kehilangan (well, sekali lagi, klasifikasi dan pengenalan gambar) menyediakan semacam pengaturan dan membantu melawan jaringan menjadi jenuh dan pada gilirannya gradien tidak dapat menyembunyikan itu dengan baik.
Apa yang juga memungkinkan adalah pra-pelatihan per-lapisan menggunakan metode yang tidak diawasi. Pada dasarnya, Anda mengambil banyak auto-encoders dan belajar representasi abstrak semakin kurang saat Anda meningkatkan rasio kompresi. Bobot dari jaringan ini digunakan untuk menginisialisasi versi yang dilindungi. Ini memecahkan masalah gradien hilang dengan cara lain: Anda sudah memulai pelatihan yang diawasi dari posisi awal yang jauh lebih baik. Jadi semua jaringan lain bangkit dan mulai memberontak. Namun jaringan tetap membutuhkan pengawasan, jika tidak, data tetap tidak mungkin disimpan.
Sekarang, untuk bagian terakhir yang akhirnya mengarah pada jawaban Anda yang terlalu rumit untuk disingkat: mengapa lebih banyak lapisan dan bukan hanya satu. Karena kita bisa! dan karena deskriptor fitur konteks dan invarian. dan kolam.
Berikut ini sebuah contoh: Anda memiliki kumpulan data gambar, bagaimana Anda akan melatih rencana NN menggunakan data itu? Nah, secara naif, Anda katakan saja setiap baris dan Anda menggabungkannya menjadi satu vektor panjang dan itulah input Anda. Apa yang kamu pelajari? Nah, beberapa fungsi fuzzy nonsense yang mungkin tidak terlihat seperti apa pun, karena banyaknya banyak jenis varian yang terdapat pada objek dalam gambar dan Anda tidak dapat membedakan antara hal-hal yang relevan dan tidak relevan. Dan pada titik tertentu jaringan perlu lupa untuk dapat mempelajari kembali hal-hal baru. Jadi ada masalah kapasitas. Ini lebih merupakan dinamika non-linear, tetapi intinya adalah Anda perlu meningkatkan jumlah neuron untuk dapat memasukkan lebih banyak informasi dalam jaringan Anda.
Jadi intinya adalah bahwa jika Anda hanya memasukkan gambar sebagai satu bagian, menambahkan lapisan tambahan tidak terlalu banyak untuk Anda karena Anda tidak dapat mempelajari abstraksi , yang sangat penting. Melakukan hal-hal secara holistik sehingga tidak berfungsi dengan baik, kecuali jika Anda melakukan hal-hal yang lebih sederhana dengan jaringan seperti berfokus pada jenis objek tertentu, jadi Anda membatasi diri pada satu kelas dan Anda memilih beberapa properti global sebagai tujuan klasifikasi.
Jadi, apa yang harus dilakukan? Lihatlah ujung layar Anda dan cobalah membaca teks ini. Masalah? Sebodoh kedengarannya, Anda perlu melihat apa yang Anda baca. Kalau tidak, terlalu kabur / tidak ada resolusi / rincian yang cukup. Mari kita sebut area fokus bidang reseptif. Jaringan harus dapat fokus juga. Pada dasarnya alih-alih menggunakan seluruh gambar sebagai input, Anda memindahkan jendela geser di sepanjang gambar dan kemudian Anda menggunakannya sebagai input ke jaringan (sedikit kurang stokastik daripada apa yang dilakukan manusia). Sekarang Anda juga memiliki kesempatan untuk menangkap korelasi antara piksel dan karenanya objek dan Anda juga dapat membedakan antara kucing yang mengantuk duduk di sofa dan kucing melompat bungee terbalik. Rapi, iman pada manusia pulih kembali. Jaringan dapat mempelajari abstraksi lokal dalam suatu gambar pada berbagai tingkatan. Jaringan mempelajari filter,
Jadi, untuk meringkas segalanya: bidang / konvolusi reseptif, inisialisasi tanpa pengawasan, unit linear yang diperbaiki, putus sekolah atau metode regularisasi lainnya. Jika Anda sangat serius tentang ini, saya sarankan Anda melihat Deep Learning Schmidhuber di Neural Networks: Tinjauan di sini adalah url untuk preprint http://arxiv.org/abs/1404.7828
Dan ingat: pembelajaran besar, data mendalam. Kata.
sumber
Dalam istilah awam, perbedaan utama dengan Neural Networks klasik adalah mereka memiliki lapisan yang lebih tersembunyi.
Idenya adalah untuk menambahkan label ke lapisan untuk membuat beberapa lapisan abstraksi:
Misalnya, jaringan saraf yang dalam untuk pengenalan objek :
Anda dapat menemukan penjelasan yang bagus untuk pertanyaan ini di Quora .
Dan, jika Anda tertarik pada subjek ini saya akan merekomendasikan untuk melihat buku ini .
sumber
Saya juga agak bingung pada awalnya oleh perbedaan antara jaringan saraf (NN) dan jaringan saraf dalam (DNN), namun 'kedalaman' hanya merujuk pada jumlah parameter & lapisan, sayangnya. Anda dapat menganggapnya sebagai semacam branding ulang di bawah apa yang disebut 'Mafia Kanada'.
Beberapa tahun yang lalu, saya juga memiliki Neural Networks sebagai bagian dari kelas dan kami melakukan pengenalan angka, perkiraan gelombang dan aplikasi serupa dengan menggunakan NN, yang memiliki beberapa lapisan dan output tersembunyi dan semua jazz yang dimiliki DNN. Namun, yang tidak kami miliki saat itu adalah kekuatan komputasi.
Alasan yang membuat pemindahan ke DNN menjadi mungkin dan diinginkan adalah kemajuan dalam pengembangan perangkat keras. Sederhananya, sekarang kita dapat menghitung lebih banyak, lebih cepat dan lebih paralel (DNN pada GPU), sementara sebelumnya, waktu adalah hambatan untuk NN.
Seperti yang dirujuk pada halaman Wikipedia untuk Deep Learning , bagian 'dalam' sebagian besar merujuk pada fitur yang berinteraksi secara non-linear pada berbagai lapisan, oleh karena itu melakukan ekstraksi fitur dan transformasi. Ini juga dilakukan dalam standar NN, namun pada skala yang lebih kecil.
Pada halaman yang sama, di sini Anda memiliki definisi 'Jaringan saraf dalam (DNN) adalah jaringan saraf tiruan (JST) dengan beberapa lapisan unit yang tersembunyi antara lapisan input dan output.'
sumber
Sejauh yang saya tahu, apa yang disebut Deep Neural Network (DNN) saat ini tidak ada yang secara fundamental atau filosofis berbeda dari standar Neural Network (NN). Meskipun, secara teori, seseorang dapat memperkirakan NN sewenang-wenang menggunakan NN dangkal dengan hanya satu lapisan tersembunyi, namun, ini tidak berarti bahwa dua jaringan akan melakukan hal yang sama ketika dilatih menggunakan algoritma dan data pelatihan yang sama. Bahkan ada minat yang tumbuh dalam pelatihan jaringan dangkal yang berkinerja sama dengan jaringan dalam. Namun, cara ini dilakukan adalah dengan melatih jaringan yang dalam terlebih dahulu, dan kemudian melatih jaringan yang dangkal untuk ditiruhasil akhir (yaitu keluaran dari lapisan kedua dari belakang) dari jaringan yang dalam. Lihat, apa yang membuat arsitektur yang mendalam disukai adalah bahwa teknik pelatihan saat ini (propagasi balik) terjadi untuk bekerja lebih baik ketika neuron diletakkan dalam struktur hierarkis.
Pertanyaan lain yang mungkin diajukan adalah: mengapa Neural Networks (khususnya DNNs) menjadi begitu populer secara tiba-tiba. Menurut pemahaman saya, bahan ajaib yang membuat DNN begitu populer baru-baru ini adalah sebagai berikut:
A. Peningkatan dataset dan kemampuan pemrosesan data
1. Kumpulan data skala besar dengan jutaan gambar beragam tersedia
2. Implementasi GPU cepat dibuat tersedia untuk umum
B. Peningkatan algoritma pelatihan dan arsitektur jaringan
1. Rectified Linear Units (ReLU) bukan sigmoid atau tanh
2. Arsitektur jaringan dalam berkembang selama bertahun-tahun
A-1) Sampai baru-baru ini, setidaknya dalam Computer Vision, kami tidak dapat melatih model pada jutaan gambar berlabel; hanya karena dataset berlabel ukuran itu tidak ada. Ternyata, di samping jumlah gambar, granularity dari set label juga merupakan faktor yang sangat penting dalam keberhasilan DNNs (lihat Gambar 8 dalam makalah ini , oleh Azizpour et al.).
A-2) Banyak upaya rekayasa telah dilakukan untuk memungkinkan untuk melatih DNN yang bekerja dengan baik dalam praktik, terutama, munculnya implementasi GPU. Salah satu implementasi GPU pertama DNN yang berhasil, berjalan pada dua GPU paralel; namun, dibutuhkan sekitar satu minggu untuk melatih DNN pada 1,2 juta gambar dari 1000 kategori menggunakan GPU kelas atas (lihat makalah ini, oleh Krizhevsky et al.).
B-1) Penggunaan Simple Rectified Linear Units (ReLU) alih-alih fungsi sigmoid dan tanh mungkin merupakan blok bangunan terbesar dalam membuat pelatihan DNN dimungkinkan. Perhatikan bahwa kedua fungsi sigmoid dan tanh memiliki gradien hampir nol hampir di mana-mana, tergantung pada seberapa cepat mereka berpindah dari tingkat aktivasi rendah ke tinggi; dalam kasus ekstrem, ketika transisi tiba-tiba, kita mendapatkan fungsi langkah yang memiliki kemiringan nol di mana-mana kecuali pada satu titik di mana transisi terjadi.
B-2) Cerita tentang bagaimana arsitektur jaringan saraf berkembang selama bertahun-tahun mengingatkan saya pada bagaimana evolusi mengubah struktur organisme di alam. Pembagian parameter (misalnya dalam lapisan konvolusional), regularisasi putus sekolah, inisialisasi, jadwal tingkat pembelajaran, pengelompokan spasial, sub-pengambilan sampel pada lapisan yang lebih dalam, dan banyak trik lain yang sekarang dianggap standar dalam pelatihan. DNN dikembangkan, dikembangkan, akhirnya disesuaikan dengan kebutuhan bertahun-tahun untuk memungkinkan pelatihan jaringan mendalam seperti sekarang ini.
sumber
Perbedaan antara NN "Deep" dan NN standar murni kualitatif: tidak ada definisi tentang apa yang dimaksud "Deep". "Dalam" dapat berarti apa saja dari arsitektur yang sangat canggih yang digunakan oleh Google, Facebook dan rekan yang memiliki 50-80 atau bahkan lebih lapisan, hingga 2 lapisan tersembunyi (total 4 lapisan). Saya tidak akan terkejut jika Anda bahkan dapat menemukan artikel yang mengklaim melakukan pembelajaran mendalam dengan satu lapisan tersembunyi, karena "dalam" tidak berarti banyak.
"Jaringan saraf" juga merupakan kata yang tidak memiliki makna yang sangat tepat. Ini mencakup ansambel model yang sangat besar, dari mesin boltzman acak (yang merupakan grafik tidak terarah) hingga arsitektur feedforward dengan berbagai fungsi aktivasi. Sebagian besar NN akan dilatih menggunakan backprop, tetapi tidak harus demikian sehingga bahkan algoritma pelatihannya tidak terlalu homogen.
Secara keseluruhan, pembelajaran yang mendalam, NN yang dalam dan NNs semuanya menjadi catch-all words yang menangkap banyak pendekatan.
Untuk referensi pengantar yang baik ke "apa yang berubah": Pembelajaran mendalam Representasi: Looking Forward , Bengio, 2013 adalah tinjauan + perspektif yang baik untuk masa depan. Juga lihat Apakah Jaring Yang Dalam Sangat Perlu Menjadi Dalam? Ba & Caruana, 2013 yang menggambarkan bahwa menjadi dalam mungkin tidak berguna untuk representasi tetapi untuk belajar.
sumber
Untuk memperluas jawaban David Gasquez, salah satu perbedaan utama antara jaringan saraf dalam dan jaringan saraf tradisional adalah bahwa kita tidak hanya menggunakan backpropagation untuk jaring saraf dalam.
Mengapa? Karena backpropagation melatih lapisan selanjutnya dengan lebih efisien daripada melatih lapisan sebelumnya - seperti yang Anda lakukan sebelumnya dan sebelumnya dalam jaringan, kesalahan semakin kecil dan semakin menyebar. Jadi jaringan sepuluh-lapisan pada dasarnya akan menjadi tujuh lapis bobot acak diikuti oleh tiga lapis bobot pas, dan melakukan sama baiknya dengan jaringan tiga lapis. Lihat di sini untuk lebih lanjut.
Jadi terobosan konseptual memperlakukan masalah yang terpisah (lapisan berlabel) sebagai masalah yang terpisah - jika kita pertama kali mencoba memecahkan masalah membangun lapisan pertama yang baik secara umum, dan kemudian mencoba untuk memecahkan masalah membangun lapisan kedua yang baik secara umum, akhirnya kami akan memiliki ruang fitur yang mendalam yang dapat kami masukkan ke masalah kami yang sebenarnya.
sumber
NN:
DNN:
Perpindahan ke DNN disebabkan oleh tiga terobosan independen yang terjadi pada tahun 2006.
Mengenai teorema pada NN, pertanyaan yang disinggung adalah:
sumber
Saya pikir Anda harus melangkah mundur dan melihat bahwa ini telah menciptakan kebangkitan AI dangkal - mis. Sekumpulan kata untuk analisis sentimen dan aplikasi bahasa lainnya dan sekumpulan kata-kata memimpin pendekatan untuk pengenalan gambar sebelum DNN. Tidak ada yang mengatakan kantong kata-kata adalah model bahasa yang benar, tetapi itu adalah solusi teknik yang efektif. Jadi saya akan mengatakan DNN adalah 'tas kata-kata visual' yang lebih baik - lihat misalnya Szegedy et al. 2013 Properti menarik dari jaringan saraf dan Nguyen et al. Deep Neural Networks Mudah Tertipu: Prediksi Keyakinan Tinggi untuk Gambar Tidak Dikenali di mana jelas bahwa tidak ada struktur urutan yang lebih tinggi, dll. Sedang dipelajari (atau apa pun yang diklaim untuk DNN).
sumber
Sumber: Arno Candel
sumber