Jadi apa masalahnya dengan LSTM?

12

Saya memperluas pengetahuan saya tentang paket Keras dan saya telah menggunakan beberapa model yang tersedia. Saya memiliki masalah klasifikasi biner NLP yang saya coba selesaikan dan telah menerapkan berbagai model.

Setelah bekerja dengan beberapa hasil dan membaca lebih banyak tentang LSTM, sepertinya pendekatan ini jauh lebih unggul daripada yang lain yang pernah saya coba (melintasi banyak dataset). Saya terus berpikir, "mengapa / kapan Anda tidak menggunakan LSTM?". Penggunaan gerbang tambahan, yang melekat pada LSTM, masuk akal bagi saya setelah memiliki beberapa model yang menderita gradien hilang.

Jadi apa masalahnya dengan LSTM? Di mana mereka tidak melakukannya dengan baik? Saya tahu tidak ada yang namanya algoritma "satu ukuran cocok untuk semua", jadi pasti ada kerugian untuk LSTM.

I_Play_With_Data
sumber
Coba GRU, mereka seperti LSTM tetapi membutuhkan lebih sedikit memori dan melatih lebih cepat.
Vivek Khetan

Jawaban:

11

Anda benar bahwa LSTM bekerja sangat baik untuk beberapa masalah, tetapi beberapa kelemahannya adalah:

  • LSTM membutuhkan waktu lebih lama untuk dilatih
  • LSTM membutuhkan lebih banyak memori untuk dilatih
  • LSTM mudah dipakai
  • Putus sekolah jauh lebih sulit untuk diterapkan di LSTM
  • LSTM sensitif terhadap inisialisasi berat acak yang berbeda

Ini dibandingkan dengan model yang lebih sederhana seperti jaring 1D, misalnya.

Tiga item pertama adalah karena LSTM memiliki lebih banyak parameter.

Imran
sumber
3
Setuju, dan saya pikir overfitting (alias generalisasi yang buruk) mungkin risiko terbesar. Pastikan Anda memiliki strategi yang baik untuk melakukan validasi model.
tom