Metode optimasi apa yang paling cocok untuk LSTM?

20

Saya telah menggunakan theano untuk bereksperimen dengan LSTM, dan bertanya-tanya apa metode optimasi (SGD, Adagrad, Adadelta, RMSprop, Adam, dll) bekerja paling baik untuk LSTM? Apakah ada makalah penelitian tentang topik ini?

Juga, apakah jawabannya tergantung pada jenis aplikasi yang saya gunakan untuk LSTM? Jika demikian, saya menggunakan LSTM untuk klasifikasi teks (di mana teks pertama kali dikonversi menjadi vektor kata).

Akhirnya, apakah jawabannya sama atau berbeda untuk RNN? Petunjuk apa pun untuk makalah penelitian, atau wawasan pribadi akan sangat dihargai!

LSTM tampaknya cukup kuat dan saya tertarik untuk belajar lebih banyak tentang cara terbaik menggunakannya.

Sari apel
sumber

Jawaban:

7

Ironisnya, Pengoptimal terbaik untuk LSTM sendiri adalah LSTM: https://arxiv.org/abs/1606.04474 Belajar belajar dengan penurunan gradien demi penurunan gradien.

Ide dasarnya adalah menggunakan jaringan saraf (khususnya di sini jaringan LSTM) untuk belajar bersama dan mengajar gradien dari jaringan asli. Ini disebut meta learning.

Metode ini, yang diusulkan oleh Juergen Schmidhuber pada tahun 2000, baru-baru ini terbukti mampu mengungguli pengoptimal lain dalam pelatihan RNN. (lihat kertas asli untuk grafik yang bagus)

Anona112
sumber
Bisakah Anda memperluas dengan memberi tahu kami apa yang dikatakan tautan?
mdewey
diubah untuk kesenangan Anda. Karena pertanyaan aslinya adalah "Metode optimasi apa yang paling cocok untuk LSTM?" bukan "Bagaimana cara kerja metode optimasi terbaik untuk LSTMs" Saya biarkan saja.
Anona112
4

Secara umum tidak ada bukti yang jelas mengenai metode optimasi mana yang digunakan dalam skenario apa. Ada beberapa analisis dalam perilaku metode ini di bawah skenario yang berbeda namun tidak ada yang konklusif. Jika Anda ingin menyelami hal-hal ini maka saya sarankan: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimisasi.pdf

Untuk setidaknya memberikan Anda sedikit jawaban, saya berpendapat bahwa seringkali konfigurasi rutin optimasi Anda lebih penting daripada rutinitas aktual itu sendiri.

Selain itu saya menyarankan Anda untuk melihat ke kertas untuk melihat teknik apa yang sedang digunakan. Alex Graves dari contoh memiliki kelebihan menggunakan RMSprop di sebagian besar publikasi tentang menghasilkan urutan.

Sjoerd
sumber