Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan gensim.
Corpus dibagi dengan kalimat:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus dibagi berdasarkan artikel:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Pelatihan Word2Vec dengan Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)
sumber
Sebagai tambahan untuk jawaban @ NBartley. Kepada siapa pun menemukan pertanyaan ini. Saya sudah mencoba menggunakan artikel / kalimat sebagai input untuk word2vec di Spark2.2, hasilnya sebagai berikut.
gunakan kalimat sebagai input:
gunakan artikel sebagai input:
sumber
Untuk yang pertama, gensim memiliki kelas Word2Vec. Untuk yang terakhir, Doc2Vec.
http://rare-technologies.com/doc2vec-tutorial/
sumber