Perbedaan utama antara GRU dan LSTM adalah bahwa GRU memiliki dua gerbang ( reset dan memperbarui gerbang) sedangkan LSTM memiliki tiga gerbang (yaitu input , output dan gerbang lupa ).
Mengapa kita menggunakan GRU ketika kita jelas memiliki lebih banyak kontrol pada jaringan melalui model LSTM (karena kita memiliki tiga gerbang)? Dalam skenario apa GRU lebih disukai daripada LSTM?
neural-network
deep-learning
Sayali Sonawane
sumber
sumber
Jawaban:
GRU terkait dengan LSTM karena keduanya menggunakan cara yang berbeda jika informasi gating untuk mencegah masalah gradien hilang. Berikut adalah beberapa pin-poin tentang GRU vs LSTM-
Untuk deskripsi terperinci, Anda dapat menjelajahi Makalah Penelitian ini - Arxiv.org . Makalah ini menjelaskan semua ini dengan cemerlang.
Plus, Anda juga dapat menjelajahi blog ini untuk ide yang lebih baik-
Semoga ini bisa membantu!
sumber
* Untuk melengkapi jawaban yang sudah bagus di atas.
Dari pengalaman saya, GRU melatih lebih cepat dan berkinerja lebih baik daripada LSTM pada data pelatihan kurang jika Anda melakukan pemodelan bahasa (tidak yakin tentang tugas-tugas lain).
GRU lebih sederhana dan karenanya lebih mudah untuk dimodifikasi, misalnya menambahkan gerbang baru jika input tambahan ke jaringan. Itu hanya sedikit kode pada umumnya.
LSTM secara teori harus mengingat urutan yang lebih panjang dari GRU dan mengungguli mereka dalam tugas yang membutuhkan pemodelan hubungan jarak jauh.
* Beberapa makalah tambahan yang menganalisis GRU dan LSTM.
"Neural GPU, Pelajari Algoritma" (Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"Studi Banding CNN dan RNN untuk Pemrosesan Bahasa Alami" (Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
sumber
Jawaban ini sebenarnya terletak pada dataset dan use case. Sulit untuk mengatakan secara pasti mana yang lebih baik.
sumber
Unit GRU LENGKAP
Unit LSTM
Seperti dapat dilihat dari persamaan LSTM memiliki gerbang pembaruan yang terpisah dan gerbang lupa. Ini jelas membuat LSTM lebih canggih tetapi pada saat yang sama lebih kompleks juga. Tidak ada cara sederhana untuk memutuskan mana yang akan digunakan untuk kasus penggunaan khusus Anda. Anda selalu harus melakukan coba-coba untuk menguji kinerja. Namun, karena GRU lebih sederhana daripada LSTM, GRU akan membutuhkan waktu lebih sedikit untuk melatih dan lebih efisien.
Penghargaan: Andrew Ng
sumber
GRU lebih baik daripada LSTM karena mudah dimodifikasi dan tidak membutuhkan unit memori, oleh karena itu, lebih cepat untuk dilatih daripada LSTM dan memberikan sesuai kinerja.
sumber
Sebenarnya, perbedaan utama lebih dari itu: perceptron jangka panjang (LSTM) dibuat menggunakan algoritma momentum dan gradient descent. Ketika Anda merekonsiliasi LSTM perceptrons dengan rekanannya RNNs rekursif, Anda menghasilkan GRU yang benar-benar hanya unit berulang umum atau Gradient Recurrent Unit (tergantung pada konteksnya) yang lebih dekat mengintegrasikan momentum dan algoritma gradient descent. Seandainya Anda, saya akan melakukan lebih banyak penelitian tentang AdamOptimizers.
Omong-omong, GRU adalah konsep yang ketinggalan zaman. Namun, saya dapat memahami Anda merisetnya jika Anda menginginkan pengetahuan mendalam tentang TF.
sumber