Saya mencoba memahami arsitektur Recurrent neural network (RNN) yang berbeda untuk diterapkan pada data deret waktu dan saya agak bingung dengan nama-nama berbeda yang sering digunakan ketika menggambarkan RNN. Apakah struktur memori jangka pendek panjang (LSTM) dan Gated Recurrent Unit (GRU) pada dasarnya adalah RNN dengan loop umpan balik?
neural-networks
lstm
rnn
Josie
sumber
sumber
Jawaban:
Semua RNN memiliki loop umpan balik di lapisan berulang. Ini memungkinkan mereka mempertahankan informasi dalam 'memori' seiring waktu. Tetapi, mungkin sulit untuk melatih RNN standar untuk menyelesaikan masalah yang membutuhkan pembelajaran dependensi temporal jangka panjang. Ini karena gradien dari fungsi kerugian meluruh secara eksponensial dengan waktu (disebut masalah gradien hilang). Jaringan LSTM adalah jenis RNN yang menggunakan unit khusus selain unit standar. Unit LSTM termasuk 'sel memori' yang dapat menyimpan informasi dalam memori untuk jangka waktu yang lama. Serangkaian gerbang digunakan untuk mengontrol kapan informasi memasuki memori, kapan itu dikeluarkan, dan kapan itu dilupakan. Arsitektur ini memungkinkan mereka mempelajari dependensi jangka panjang. GRU mirip dengan LSTM, tetapi gunakan struktur yang disederhanakan.
Makalah ini memberikan ikhtisar yang baik:
sumber
RNNs Standar (Jaringan Syaraf Berulang) menderita masalah gradien yang hilang dan meledak. LSTM (Memori Jangka Pendek Panjang) menangani masalah ini dengan memperkenalkan gerbang baru, seperti gerbang input dan lupa, yang memungkinkan kontrol yang lebih baik atas aliran gradien dan memungkinkan pelestarian yang lebih baik dari "ketergantungan jangka panjang".
sumber
LSTM sering disebut sebagai RNN mewah. Vanilla RNNs tidak memiliki status sel. Mereka hanya memiliki status tersembunyi dan status tersembunyi itu berfungsi sebagai memori untuk RNN.
Sementara itu, LSTM memiliki status sel dan status tersembunyi. Keadaan sel memiliki kemampuan untuk menghapus atau menambahkan informasi ke sel, diatur oleh "gerbang". Dan karena "sel" ini, secara teori, LSTM harus mampu menangani ketergantungan jangka panjang (dalam praktiknya, sulit untuk melakukannya.)
sumber
TL; DR
[ CATATAN ]:
LSTM adalah versi lanjutan dari GRU.
Gambar ini menunjukkan perbedaan di antara mereka:
sumber