Apa itu formulasi LSTM-LM?

8

Saya membaca makalah ini "Sequence to Sequence Learning dengan Neural Networks" http://papers.nips.cc/paper/5346-afterence-to- followingence-learning-with-neural-networks.pdf

Di bawah "2. Model" itu tertulis:

LSTM menghitung probabilitas bersyarat ini dengan terlebih dahulu memperoleh representasi dimensi tetap v dari urutan input (x1, ..., xT) yang diberikan oleh keadaan tersembunyi terakhir dari LSTM, dan kemudian menghitung probabilitas y1 ,. . . , yT ′ dengan formulasi LSTM-LM standar yang keadaan tersembunyi awalnya diatur ke representasi v dari x1,. . . , xT:

Saya tahu apa itu LSTM, tapi apa itu LSTM-LM? Saya sudah mencoba Googling tetapi tidak menemukan petunjuk yang bagus.

Taevanbat Mongol
sumber
Tetapi kalimat ini masih membingungkan bagi saya. jika saya memasukkannya ke dalam persamaan if make ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) dengan c status tersembunyi terakhir dari encoder. kemudian keadaan tersembunyi pertama mewakili informasi yang disediakan oleh pembuat enkode, tetapi yang berikutnya mewakili distribusi probabilitas elemen-elemen urutan target: sesuatu yang sifatnya sangat berbeda. Juga inisialisasi keadaan sel tidak diberikan dan gambar 1 biarkan percaya bahwa penyedia LSTM
Charles Englebert

Jawaban:

10

Definisi Model Bahasa (LM) adalah distribusi probabilitas atas urutan kata-kata.

Ilustrasi sederhana LM memperkirakan kata berikutnya dengan kata sebelumnya.

Misalnya, jika saya memiliki model bahasa dan beberapa kata awal:

  • Saya mengatur kata awal saya ke My
  • Model saya memprediksi ada probabilitas tinggi yang namemuncul setelahnya My.
  • Dengan menetapkan kata-kata awal My name, model saya memprediksi ada probabilitas tinggi yang ismuncul setelahnya My name.
  • Jadi seperti: My-> My name-> My name is-> My name is Tom, dan seterusnya.

Anda dapat memikirkan pelengkapan otomatis pada keyboard ponsel cerdas Anda. Faktanya, LM adalah jantung dari pelengkapan otomatis.

Jadi, LSTM-LM hanya menggunakan LSTM (dan fungsi softmax) untuk memprediksi kata berikutnya yang diberikan kata-kata Anda sebelumnya.

Omong-omong, Model Bahasa tidak terbatas pada LSTM, RNN lain (GRU), atau model terstruktur lainnya. Bahkan, Anda juga dapat menggunakan jaringan feedforward dengan konteks / geser / jendela bergulir untuk memprediksi kata berikutnya yang diberikan kata-kata awal Anda.

rilut
sumber
Apakah itu mengubah formulasi LSTM itu sendiri dengan cara apa pun?
Taevanbat Mongol
Atau apakah itu mengubah cara LSTM dihubungkan bersama?
Taevanbat Mongol
1
IMHO, mungkin itu berarti LSTM yang disetel untuk LM (Language Modeling). Saya membaca makalah yang sama dan itu adalah pemahaman saya
Ali
@TaevanbatMongol tidak itu tidak mengubah formulasi LSTM. Anda hanya memerlukan fungsi softmax (atau sesuatu) untuk menghasilkan probabilitas kata-kata dari output
LSTM
Probabilitas kata berarti jika Anda menjumlahkan probabilitas / skor output dari cap waktu, itu akan sama dengan 1
rilut
1

Dalam konteks ini saya pikir itu berarti Anda mengambil representasi output dan mempelajari lapisan softmax tambahan yang sesuai dengan token dalam model bahasa Anda (dalam hal ini huruf).

Bhav Ashok
sumber