Rata-rata dua vektor Word2vec untuk mendapatkan representasi terpadu untuk satu kata

8

Saya telah mengerjakan data yang terlatih untuk algoritma Word2vec. Karena kita membutuhkan kata-kata untuk tetap seperti aslinya, kita tidak membuatnya menjadi huruf kecil pada tahap preprocessing. Jadi ada kata-kata dengan variasi berbeda (mis. "Bumi" dan "bumi").

Satu-satunya cara saya dapat memikirkan adalah untuk mengambil rata-rata vektor untuk "Bumi" dan "bumi" untuk membuat vektor tunggal untuk mewakili kata. (Karena dimensi vektor fitur serupa)

Apakah ini metode "oke"? Jika tidak, apa cara yang baik untuk menangani masalah ini?

Catatan: Menurunkan semua kata dalam praproses bukanlah pilihan untuk saat ini.

Sunting: Info tentang apakah dimensi fitur benar-benar linier atau tidak juga akan membantu.

Sunting 2: Menggabungkan kedua jawaban dari patapouf_aidan yazhimemberikan hasil terbaik. Bagaimana ini digabungkan? Rata-rata tertimbang meningkatkan hasil tetapi menempatkan frekuensi kata melalui fungsi sigmoid skala memberikan hasil terbaik, karena menggunakan frekuensi kata secara linier memberi mereka lebih penting daripada yang mereka tanggung.

ozgur
sumber

Jawaban:

1

Rata-rata saja mereka mungkin tidak baik karena itu akan mengasumsikan bahwa mereka memiliki bobot yang sama, dan itu mungkin tidak terjadi jika versi yang ditulis dengan huruf besar dan tanpa modal muncul dengan frekuensi yang sangat berbeda dalam data pelatihan Anda.

Peningkatan bertahap akan menjadi rata-rata secara proporsional dengan frekuensi mereka dalam korpus. Jadi katakanlah Earth muncul 159 kali dan earth 1239 kali melakukan sesuatu seperti:

v (Bumi & bumi) = 159 / (159 + 1239) * v (Bumi) + 1239 / (159 + 1239) * v (bumi).

Vektor seharusnya menyandikan semantik secara linier, jadi ini akan memberi Anda perkiraan resonansi.

patapouf_ai
sumber
1
Ini adalah solusi yang telah kami pilih. Saya mungkin juga menerima jawabannya.
ozgur
0

Kata-kata "Bumi" dan "bumi" mungkin memiliki arti yang sama, tetapi menurut algoritma word2vec, itu memperoleh informasi semantik dari posisi kata-kata.

Jadi secara umum, "Bumi" akan muncul paling sering pada awal kalimat sebagai subjek dan "bumi" akan muncul sebagian besar dalam bentuk objek di akhir. Jadi, kata-kata yang berdekatan terdekat mungkin berbeda, tetapi secara keseluruhan kedua kalimat itu mungkin mengandung kata-kata seperti "polusi, iklim, air, negara".

Sebagai kesimpulan, saya kira dengan ukuran jendela yang lebih besar, tampaknya mempertahankan informasi semantik yang sama dengan sedikit perubahan di mana "Bumi" akan memiliki beberapa informasi subjek dan "bumi" akan memiliki informasi objek. Jadi, rata-rata tidak akan banyak mempengaruhi dan tampaknya menjadi kasus yang mungkin. Tetapi dengan ukuran jendela yang lebih rendah, ada kemungkinan besar bahwa itu bisa memiliki arti yang berbeda.

yazhi
sumber
Nah, ukuran BoW adalah 5. Nomor mana yang Anda anggap ukuran jendela yang sesuai untuk rata-rata bekerja?
ozgur
ukuran jendela 5 berarti, totalnya mempertimbangkan 10 kata dan kalimat bahasa Inggris yang umum dapat ditulis dalam 10 kata. Jadi itu kedengarannya baik bagi saya.
yazhi