Setiap algoritma yang berhubungan dengan data teks memiliki kosakata. Dalam kasus word2vec, kosakata terdiri dari semua kata dalam corpus input, atau setidaknya yang di atas ambang frekuensi minimum.
Algoritma cenderung mengabaikan kata-kata yang berada di luar kosa kata mereka. Namun ada beberapa cara untuk membingkai ulang masalah Anda sehingga pada dasarnya tidak ada kata-kata Kosakata Keluar.
Ingat bahwa kata-kata hanyalah "token" di word2vec. Mereka bisa berupa ngrams atau bisa juga berupa surat. Salah satu cara untuk mendefinisikan kosakata Anda adalah dengan mengatakan bahwa setiap kata yang muncul setidaknya X kali ada dalam kosakata Anda. Kemudian "suku kata" yang paling umum (ngram huruf) ditambahkan ke kosakata Anda. Kemudian Anda menambahkan huruf individual ke kosakata Anda.
Dengan cara ini Anda dapat mendefinisikan kata apa saja sebagai salah satu
- Sepatah kata dalam kosakata Anda
- Seperangkat suku kata dalam kosakata Anda
- Gabungan huruf dan suku kata dalam kosakata Anda
Korpus pelatihan harus memiliki semua kata yang ingin Anda temukan kesamaannya.
sumber
Word2Vec dan FastText gagal jika kata itu tidak ada dalam kosakata. Melempar kesalahan Ini memberikan daftar skor untuk kata-kata yang berhubungan Tapi kata yang tak terlihat tidak akan ada dalam kosakata bukan? Jadi, bagaimana cara memecahkan masalah kata yang tak terlihat?
sumber