Saya bertanya-tanya bagaimana cara memberi label (tag) kalimat / paragraf / dokumen dengan doc2vec di gensim - dari sudut pandang praktis.
Apakah Anda perlu memiliki setiap kalimat / paragraf / dokumen dengan label uniknya sendiri (mis. "Sent_123")? Ini sepertinya berguna jika Anda ingin mengatakan "kata atau kalimat apa yang paling mirip dengan satu kalimat spesifik berlabel" Sent_123 ".
Bisakah Anda membuat label diulangi berdasarkan konten? Misalnya jika setiap kalimat / paragraf / dokumen adalah tentang item produk tertentu (dan ada beberapa kalimat / paragraf / dokumen untuk item produk tertentu) dapatkah Anda memberi label pada kalimat berdasarkan item tersebut dan kemudian menghitung kesamaan antara kata atau kalimat dan label ini (yang saya kira akan seperti rata-rata semua kalimat yang ada hubungannya dengan item produk)?
dm=0, dbow_words=1
.doc2vec
Model mendapatkan algoritma dariword2vec
.Di
word2vec
sini tidak perlu melabeli kata-kata, karena setiap kata memiliki makna semantik mereka sendiri dalam kosa kata. Tetapi dalam kasusdoc2vec
, ada kebutuhan untuk menentukan bahwa berapa banyak jumlah kata atau kalimat menyampaikan makna semantik, sehingga algoritma dapat mengidentifikasinya sebagai entitas tunggal. Untuk alasan ini, kami menentukanlabels
atautags
untuk kalimat atau paragraf tergantung pada tingkat makna semantik yang disampaikan.Jika kami menentukan satu label untuk beberapa kalimat dalam satu paragraf, itu berarti bahwa semua kalimat dalam paragraf diperlukan untuk menyampaikan artinya. Di sisi lain, jika kita menentukan label variabel untuk semua kalimat dalam paragraf, itu berarti bahwa masing-masing menyampaikan makna semantik dan mereka mungkin atau mungkin tidak memiliki kesamaan di antara mereka.
Secara sederhana,
label
makna semantik berarti sesuatu.sumber
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Saya tidak yakin saya memahami ini dengan benar. Dari algoritma POV, apakah semua kalimat dengan tag yang sama diperlukan untuk definisi semantik atau semua kalimat dengan tag yang sama menggambarkan hal yang sama? Dalam kasus pertama, tidak ada kalimat tunggal yang mencukupi dirinya sendiri, dalam kasus kedua, satu kalimat mandiri.