Saya ingin membandingkan perbedaan antara kata yang sama yang disebutkan dalam berbagai sumber. Artinya, bagaimana penulis berbeda dalam penggunaan kata-kata yang tidak jelas, seperti "demokrasi".
Rencana singkat adalah
- Ambil buku-buku yang menyebutkan istilah "demokrasi" sebagai teks biasa
- Di setiap buku, ganti
democracy
dengandemocracy_%AuthorName%
- Latih
word2vec
model di buku-buku ini - Hitung jarak antara
democracy_AuthorA
,,democracy_AuthorB
dan sebutan lain tentang "demokrasi"
Jadi "demokrasi" setiap penulis mendapatkan vektornya sendiri, yang digunakan untuk perbandingan.
Tetapi tampaknya word2vec
membutuhkan lebih dari beberapa buku (setiap kata yang dilabel ulang hanya muncul dalam subset buku) untuk melatih vektor yang dapat diandalkan. The halaman resmi merekomendasikan dataset termasuk miliaran kata-kata.
Saya hanya ingin bertanya seberapa besar seharusnya bagian dari satu buku penulis untuk membuat kesimpulan seperti itu word2vec
atau alat alternatif, jika tersedia?
text-mining
word-embeddings
Anton Tarasenko
sumber
sumber
window
parameter set berapa banyak kata-kata dalam konteks yang digunakan untuk melatih model untuk kata Anda wJawaban:
Kedengarannya seperti doc2vec (atau paragraf / vektor konteks) mungkin cocok untuk masalah ini.
Singkatnya, selain vektor kata, Anda menambahkan "vektor konteks" (dalam kasus Anda, embedding untuk penulis) yang digunakan untuk memprediksi kata pusat atau konteks.
Ini berarti bahwa Anda akan mendapat manfaat dari semua data tentang "demokrasi" tetapi juga mengekstrak penyematan untuk penulis itu, yang digabungkan akan memungkinkan Anda untuk menganalisis bias dari setiap penulis dengan data terbatas tentang masing-masing penulis.
Anda dapat menggunakan implementasi gensim . Dokumen mencakup tautan ke makalah sumber.
sumber