Saya mencoba memuat model fastText pretrained dari sini model Fasttext . Saya menggunakan wiki.simple.en
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
Tapi, itu menunjukkan kesalahan berikut
Traceback (most recent call last):
File "nltk_check.py", line 28, in <module>
word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True)
File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format
header = utils.to_unicode(fin.readline(), encoding=encoding)
File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode
return unicode(text, encoding, errors=errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
Pertanyaan 1 Bagaimana cara memuat model fasttext dengan Gensim?
Pertanyaan 2 Juga, setelah memuat model, saya ingin menemukan kesamaan antara dua kata
model.find_similarity('teacher', 'teaches')
# Something like this
Output : 0.99
Bagaimana saya melakukan ini?
DeprecationWarning: Call to deprecated `load_fasttext_format` (use load_facebook_vectors
. Jadi saya menggunakanfrom gensim.models.fasttext import load_facebook_model
Untuk penggunaan .bin :
load_fasttext_format()
(ini biasanya berisi model lengkap dengan parameter, ngram, dll).Untuk penggunaan .vec :
load_word2vec_format
(ini HANYA berisi vektor-kata -> tanpa ngram + Anda tidak dapat memperbarui model).Catatan :: Jika Anda menghadapi masalah dengan memori atau Anda tidak dapat memuat model .bin, maka periksa model pyfasttext untuk hal yang sama.
Penghargaan: Ivan Menshikh (Gensim Maintainer)
sumber
Format biner FastText (yang sepertinya Anda coba muat) tidak kompatibel dengan
word2vec
format Gensim ; yang pertama berisi informasi tambahan tentang unit kata kunci, yangword2vec
tidak digunakan.Ada beberapa diskusi tentang masalah ini (dan solusinya), di halaman FastText Github. Singkatnya, Anda harus memuat format teks (tersedia di https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md ).
Setelah Anda memuat format teks, Anda dapat menggunakan Gensim untuk menyimpannya dalam format biner, yang secara dramatis akan mengurangi ukuran model, dan mempercepat pemuatan di masa mendatang.
https://github.com/facebookresearch/fastText/issues/171#issuecomment-294295302
sumber