Saya telah menggunakan theano untuk bereksperimen dengan LSTM, dan bertanya-tanya apa metode optimasi (SGD, Adagrad, Adadelta, RMSprop, Adam, dll) bekerja paling baik untuk LSTM? Apakah ada makalah penelitian tentang topik ini?
Juga, apakah jawabannya tergantung pada jenis aplikasi yang saya gunakan untuk LSTM? Jika demikian, saya menggunakan LSTM untuk klasifikasi teks (di mana teks pertama kali dikonversi menjadi vektor kata).
Akhirnya, apakah jawabannya sama atau berbeda untuk RNN? Petunjuk apa pun untuk makalah penelitian, atau wawasan pribadi akan sangat dihargai!
LSTM tampaknya cukup kuat dan saya tertarik untuk belajar lebih banyak tentang cara terbaik menggunakannya.
sumber
Secara umum tidak ada bukti yang jelas mengenai metode optimasi mana yang digunakan dalam skenario apa. Ada beberapa analisis dalam perilaku metode ini di bawah skenario yang berbeda namun tidak ada yang konklusif. Jika Anda ingin menyelami hal-hal ini maka saya sarankan: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimisasi.pdf
Untuk setidaknya memberikan Anda sedikit jawaban, saya berpendapat bahwa seringkali konfigurasi rutin optimasi Anda lebih penting daripada rutinitas aktual itu sendiri.
Selain itu saya menyarankan Anda untuk melihat ke kertas untuk melihat teknik apa yang sedang digunakan. Alex Graves dari contoh memiliki kelebihan menggunakan RMSprop di sebagian besar publikasi tentang menghasilkan urutan.
sumber