Apa perbedaan antara umpan-maju dan jaringan saraf berulang?

Jawaban:

57

ANN feed-forward memungkinkan sinyal untuk melakukan perjalanan satu arah saja: dari input ke output. Tidak ada umpan balik (loop); yaitu , output dari setiap lapisan tidak mempengaruhi lapisan yang sama. Feed-forward JST cenderung menjadi jaringan langsung yang mengaitkan input dengan output. Mereka banyak digunakan dalam pengenalan pola. Jenis organisasi ini juga disebut sebagai bottom-up atau top-down.

Jaringan umpan-maju

Umpan balik (atau berulang atau interaktif) jaringan dapat memiliki sinyal yang bepergian di kedua arah dengan memperkenalkan loop dalam jaringan. Jaringan umpan balik sangat kuat dan bisa menjadi sangat rumit. Komputasi yang berasal dari input sebelumnya dimasukkan kembali ke jaringan, yang memberi mereka semacam memori. Jaringan umpan balik bersifat dinamis; 'keadaan' mereka terus berubah hingga mencapai titik keseimbangan. Mereka tetap berada di titik ekuilibrium sampai input berubah dan keseimbangan baru perlu ditemukan.

arsitektur umpan balik

Jaringan neural feedforward cocok untuk memodelkan hubungan antara serangkaian variabel prediktor atau input dan satu atau lebih variabel respon atau output. Dengan kata lain, mereka sesuai untuk masalah pemetaan fungsional di mana kita ingin tahu bagaimana sejumlah variabel input mempengaruhi variabel output. Jaringan neural feedforward multilayer, juga disebut multi-layer perceptrons (MLP), adalah model jaringan saraf yang paling banyak dipelajari dan digunakan dalam praktiknya.

Sebagai contoh jaringan umpan balik, saya dapat mengingat jaringan Hopfield . Penggunaan utama jaringan Hopfield adalah sebagai memori asosiatif. Memori asosiatif adalah perangkat yang menerima pola input dan menghasilkan output sebagai pola tersimpan yang paling terkait dengan input. Fungsi memori asosiasi adalah untuk mengingat pola tersimpan yang sesuai, dan kemudian menghasilkan versi pola yang jelas pada output. Jaringan Hopfield biasanya digunakan untuk masalah-masalah dengan vektor pola biner dan pola input mungkin versi berisik dari salah satu pola yang disimpan. Di jaringan Hopfield, pola yang disimpan dikodekan sebagai bobot jaringan.

Peta swadaya Kohonen(SOM) mewakili jenis jaringan saraf lain yang sangat berbeda dari jaringan multilayer feedforward. Tidak seperti pelatihan dalam MLP feedforward, pelatihan atau pembelajaran SOM sering disebut tanpa pengawasan karena tidak ada target output yang diketahui terkait dengan setiap pola input dalam SOM dan selama proses pelatihan, SOM memproses pola input dan belajar untuk mengelompokkan atau mengelompokkan data melalui penyesuaian bobot (yang menjadikannya model jaringan saraf yang penting untuk pengurangan dimensi dan pengelompokan data). Peta dua dimensi biasanya dibuat sedemikian rupa sehingga urutan keterkaitan antar input dipertahankan. Jumlah dan komposisi cluster dapat ditentukan secara visual berdasarkan distribusi keluaran yang dihasilkan oleh proses pelatihan. Dengan hanya variabel input dalam sampel pelatihan,

(Diagram tersebut berasal dari situs C463 / B551 Artificial Intelligence dari Dana Vrajitoru .)

George Dontas
sumber
2
Apakah jaringan umpan maju yang secara iteratif menggunakan outputnya sebagai input dihitung sebagai jaringan berulang?
naught101
1
Ya, memang demikian.
bayerj
2
Komentar saya sebelumnya salah. Bagian dari posting ini tampaknya dijiplak oleh orang ini (selain beberapa perubahan kata kecil) tanpa pujian.
Glen_b
1
Saya mencoba memahami secara matematis mengapa RNN lebih unggul dari jaringan umpan maju. Apakah ada contoh di mana sangat sulit untuk diperkirakan oleh Feed-forward JST tetapi mudah dengan RNN.
pikachuchameleon
14

Apa yang ditulis George Dontas benar, namun penggunaan RNN dalam praktik saat ini terbatas pada kelas masalah yang lebih sederhana: tugas seri / berurutan.

Sementara jaringan feedforward digunakan untuk mempelajari dataset seperti mana dan adalah vektor (misalnya , untuk jaringan berulang akan selalu menjadi urutan, misalnya .i t i R n i i ( R n ) (i,t)itiRnii(Rn)

RNN telah terbukti mampu mewakili urutan apa pun yang dapat diukur untuk pemetaan urutan oleh Hammer.

Dengan demikian, RNN sedang digunakan saat ini untuk semua jenis tugas berurutan: prediksi deret waktu, pelabelan urutan, klasifikasi urutan, dll. Tinjauan umum yang baik dapat ditemukan di halaman Schmidhuber di RNNs .

bayerj
sumber
"Sementara jaringan feedforward digunakan untuk mempelajari dataset seperti (i, t) di mana i dan t adalah vektor (misalnya i∈Rn, untuk jaringan berulang saya akan selalu menjadi urutan, misalnya i∈ (Rn) ∗" Saya tahu pertanyaan ini sudah lama bertanya, tetapi apakah Anda bisa menjelaskan apa artinya ini dalam istilah awam? Saya perlu membenarkan alasan saya memilih untuk menggunakan jaringan umpan maju melalui RNN untuk proyek saya, dan saya pikir ini mungkin alasannya. Atau, bisakah Anda menautkan saya ke sumber yang akan memungkinkan saya untuk membuat pembenaran ini? Setelah mencari, saya sendiri tidak dapat menemukannya. Terima kasih, jawaban apa pun sangat dihargai!
Blue7
Jawaban ini agak ketinggalan jaman sekarang. Sementara RNN meminjamkan diri mereka sendiri untuk mengurutkan data, mereka juga dapat digunakan untuk membuat prediksi pada input statis (seperti gambar atau sebaliknya). Lihat: Jaringan Syaraf Konvolusional Berulang untuk Pengenalan Objek dan Bukti bahwa sirkuit berulang sangat penting untuk pelaksanaan aliran ventral dari perilaku pengenalan objek inti
Firebug
1

Apa yang benar-benar menarik dalam mengajukan pertanyaan ini?

Alih-alih mengatakan RNN dan FNN berbeda dalam nama mereka. Jadi mereka berbeda. , Saya pikir apa yang lebih menarik adalah dalam hal pemodelan sistem dinamik, apakah RNN berbeda jauh dari FNN?

Latar Belakang

Telah ada perdebatan untuk pemodelan sistem dinamis antara jaringan saraf berulang dan jaringan saraf Feedforward dengan fitur tambahan sebagai penundaan waktu sebelumnya (FNN-TD).

Dari pengetahuan saya setelah membaca makalah itu pada tahun 90-an ~ 2010. Mayoritas literatur lebih suka bahwa vanilla RNN lebih baik daripada FNN karena RNN menggunakan memori dinamis sedangkan FNN-TD adalah memori statis .

Namun, tidak ada banyak studi numerik yang membandingkan keduanya. Yang [1] pada awal menunjukkan bahwa untuk pemodelan sistem dinamis, FNN-TD menunjukkan kinerja yang sebanding dengan vanilla RNN ketika bebas noise sambil melakukan sedikit lebih buruk ketika ada noise. Dalam pengalaman saya tentang pemodelan sistem dinamis, saya sering melihat FNN-TD cukup baik.

Apa perbedaan utama dalam cara memperlakukan efek memori antara RNN dan FNN-TD?

Sayangnya, saya tidak melihat di mana pun dan publikasi apa pun secara teoritis menunjukkan perbedaan antara keduanya. Cukup menarik. Mari kita pertimbangkan kasus sederhana, menggunakan urutan skalar untuk memprediksi . Jadi itu adalah tugas urutan-ke-skalar.Xn,Xn1,,XnkXn+1

FNN-TD adalah cara paling umum dan komprehensif untuk merawat apa yang disebut efek memori . Karena itu brutal, ia mencakup segala jenis, jenis apa pun, efek memori apa pun secara teoritis. Satu-satunya sisi buruknya adalah hanya membutuhkan terlalu banyak parameter dalam praktiknya.

Memori dalam RNN hanyalah direpresentasikan sebagai "lilitan" umum dari informasi sebelumnya . Kita semua tahu bahwa konvolusi antara dua urutan skalar secara umum bukanlah proses yang dapat dibalikkan dan dekonvolusi paling sering dikeluhkan.

Dugaan saya adalah "derajat kebebasan" dalam proses konvolusi tersebut ditentukan oleh jumlah unit tersembunyi di RNN negara . Dan ini penting untuk beberapa sistem dinamis. Perhatikan bahwa "derajat kebebasan" dapat diperpanjang dengan penundaan waktu penyematan negara [2] sambil mempertahankan jumlah unit tersembunyi yang sama.s

Oleh karena itu, RNN sebenarnya mengompresi informasi memori sebelumnya dengan kehilangan dengan melakukan konvolusi, sementara FNN-TD hanya mengeksposnya dalam arti tanpa kehilangan informasi memori. Perhatikan bahwa Anda dapat mengurangi kehilangan informasi dalam konvolusi dengan meningkatkan jumlah unit tersembunyi atau menggunakan lebih banyak waktu tunda daripada vanilla RNN. Dalam hal ini, RNN lebih fleksibel daripada FNN-TD. RNN tidak dapat mencapai kehilangan memori karena FNN-TD dan dapat menjadi sepele untuk menunjukkan jumlah parameter berada pada urutan yang sama.

Saya tahu seseorang mungkin ingin menyebutkan bahwa RNN membawa efek waktu yang lama sementara FNN-TD tidak bisa. Untuk ini, saya hanya ingin menyebutkan bahwa untuk sistem dinamik otonom yang berkelanjutan, dari teori Takens embedding, ini adalah properti generik untuk penyematan yang ada untuk FNN-TD dengan memori waktu yang tampaknya singkat untuk mencapai kinerja yang sama dengan waktu yang tampaknya lama. memori dalam RNN. Ini menjelaskan mengapa RNN dan FNN-TD tidak berbeda banyak dalam contoh sistem dinamis kontinu di awal 90-an.

Sekarang saya akan menyebutkan manfaat RNN. Untuk tugas sistem dinamik otonom, menggunakan lebih banyak istilah sebelumnya, meskipun secara efektif akan sama dengan menggunakan FNN-TD dengan istilah yang lebih sedikit dalam teori, secara numerik akan membantu karena lebih kuat untuk kebisingan. Hasil dalam [1] konsisten dengan pendapat ini.

Referensi

[1] Gençay, Ramazan, dan Tung Liu. "Pemodelan dan prediksi nonlinear dengan jaringan feedforward dan berulang." Physica D: Fenomena Nonlinier 108.1-2 (1997): 119-134.

[2] Pan, Shaowu, dan Karthik Duraisamy. "Penemuan Model Penutupan Berbasis Data." arXiv preprint arXiv: 1803.09318 (2018).

Kecerdasan Buatan
sumber