Perbedaan antara umpan balik RNN ​​dan LSTM / GRU

20

Saya mencoba memahami arsitektur Recurrent neural network (RNN) yang berbeda untuk diterapkan pada data deret waktu dan saya agak bingung dengan nama-nama berbeda yang sering digunakan ketika menggambarkan RNN. Apakah struktur memori jangka pendek panjang (LSTM) dan Gated Recurrent Unit (GRU) pada dasarnya adalah RNN dengan loop umpan balik?

Josie
sumber
2
Tolong tuliskan akronim Anda.
gung - Reinstate Monica

Jawaban:

34

Semua RNN memiliki loop umpan balik di lapisan berulang. Ini memungkinkan mereka mempertahankan informasi dalam 'memori' seiring waktu. Tetapi, mungkin sulit untuk melatih RNN standar untuk menyelesaikan masalah yang membutuhkan pembelajaran dependensi temporal jangka panjang. Ini karena gradien dari fungsi kerugian meluruh secara eksponensial dengan waktu (disebut masalah gradien hilang). Jaringan LSTM adalah jenis RNN yang menggunakan unit khusus selain unit standar. Unit LSTM termasuk 'sel memori' yang dapat menyimpan informasi dalam memori untuk jangka waktu yang lama. Serangkaian gerbang digunakan untuk mengontrol kapan informasi memasuki memori, kapan itu dikeluarkan, dan kapan itu dilupakan. Arsitektur ini memungkinkan mereka mempelajari dependensi jangka panjang. GRU mirip dengan LSTM, tetapi gunakan struktur yang disederhanakan.

Makalah ini memberikan ikhtisar yang baik:

Chung et al. (2014) . Evaluasi Empiris Gated Recurrent Neural Networks pada Sequence Modeling.

pengguna20160
sumber
5

RNNs Standar (Jaringan Syaraf Berulang) menderita masalah gradien yang hilang dan meledak. LSTM (Memori Jangka Pendek Panjang) menangani masalah ini dengan memperkenalkan gerbang baru, seperti gerbang input dan lupa, yang memungkinkan kontrol yang lebih baik atas aliran gradien dan memungkinkan pelestarian yang lebih baik dari "ketergantungan jangka panjang".

pengguna139688
sumber
2

LSTM sering disebut sebagai RNN mewah. Vanilla RNNs tidak memiliki status sel. Mereka hanya memiliki status tersembunyi dan status tersembunyi itu berfungsi sebagai memori untuk RNN.

Sementara itu, LSTM memiliki status sel dan status tersembunyi. Keadaan sel memiliki kemampuan untuk menghapus atau menambahkan informasi ke sel, diatur oleh "gerbang". Dan karena "sel" ini, secara teori, LSTM harus mampu menangani ketergantungan jangka panjang (dalam praktiknya, sulit untuk melakukannya.)

Aerin
sumber
-1

TL; DR

Kita dapat mengatakan bahwa, ketika kita berpindah dari RNN ke LSTM (Memori Jangka Pendek Panjang), kita memperkenalkan lebih banyak tombol kontrol & lebih, yang mengontrol aliran dan pencampuran Input sesuai Bobot terlatih. Dan dengan demikian, membawa lebih banyak fleksibilitas dalam mengendalikan output. Jadi, LSTM memberi kita kemampuan Kontrol yang paling baik dan karenanya, Hasil yang Lebih Baik. Tetapi juga dilengkapi dengan lebih Kompleksitas dan Biaya Operasional.

Referensi


[ CATATAN ]:

LSTM adalah versi lanjutan dari GRU.


Gambar ini menunjukkan perbedaan di antara mereka:

masukkan deskripsi gambar di sini

Benyamin Jafari
sumber