Saya membaca makalah ini "Sequence to Sequence Learning dengan Neural Networks" http://papers.nips.cc/paper/5346-afterence-to- followingence-learning-with-neural-networks.pdf
Di bawah "2. Model" itu tertulis:
LSTM menghitung probabilitas bersyarat ini dengan terlebih dahulu memperoleh representasi dimensi tetap v dari urutan input (x1, ..., xT) yang diberikan oleh keadaan tersembunyi terakhir dari LSTM, dan kemudian menghitung probabilitas y1 ,. . . , yT ′ dengan formulasi LSTM-LM standar yang keadaan tersembunyi awalnya diatur ke representasi v dari x1,. . . , xT:
Saya tahu apa itu LSTM, tapi apa itu LSTM-LM? Saya sudah mencoba Googling tetapi tidak menemukan petunjuk yang bagus.
machine-learning
neural-network
nlp
rnn
machine-translation
Taevanbat Mongol
sumber
sumber
Jawaban:
Definisi Model Bahasa (LM) adalah distribusi probabilitas atas urutan kata-kata.
Ilustrasi sederhana LM memperkirakan kata berikutnya dengan kata sebelumnya.
Misalnya, jika saya memiliki model bahasa dan beberapa kata awal:
My
name
muncul setelahnyaMy
.My name
, model saya memprediksi ada probabilitas tinggi yangis
muncul setelahnyaMy name
.My
->My name
->My name is
->My name is Tom
, dan seterusnya.Anda dapat memikirkan pelengkapan otomatis pada keyboard ponsel cerdas Anda. Faktanya, LM adalah jantung dari pelengkapan otomatis.
Jadi, LSTM-LM hanya menggunakan LSTM (dan fungsi softmax) untuk memprediksi kata berikutnya yang diberikan kata-kata Anda sebelumnya.
Omong-omong, Model Bahasa tidak terbatas pada LSTM, RNN lain (GRU), atau model terstruktur lainnya. Bahkan, Anda juga dapat menggunakan jaringan feedforward dengan konteks / geser / jendela bergulir untuk memprediksi kata berikutnya yang diberikan kata-kata awal Anda.
sumber
Dalam konteks ini saya pikir itu berarti Anda mengambil representasi output dan mempelajari lapisan softmax tambahan yang sesuai dengan token dalam model bahasa Anda (dalam hal ini huruf).
sumber