Saya telah mengerjakan data yang terlatih untuk algoritma Word2vec. Karena kita membutuhkan kata-kata untuk tetap seperti aslinya, kita tidak membuatnya menjadi huruf kecil pada tahap preprocessing. Jadi ada kata-kata dengan variasi berbeda (mis. "Bumi" dan "bumi").
Satu-satunya cara saya dapat memikirkan adalah untuk mengambil rata-rata vektor untuk "Bumi" dan "bumi" untuk membuat vektor tunggal untuk mewakili kata. (Karena dimensi vektor fitur serupa)
Apakah ini metode "oke"? Jika tidak, apa cara yang baik untuk menangani masalah ini?
Catatan: Menurunkan semua kata dalam praproses bukanlah pilihan untuk saat ini.
Sunting: Info tentang apakah dimensi fitur benar-benar linier atau tidak juga akan membantu.
Sunting 2: Menggabungkan kedua jawaban dari patapouf_ai
dan yazhi
memberikan hasil terbaik. Bagaimana ini digabungkan? Rata-rata tertimbang meningkatkan hasil tetapi menempatkan frekuensi kata melalui fungsi sigmoid skala memberikan hasil terbaik, karena menggunakan frekuensi kata secara linier memberi mereka lebih penting daripada yang mereka tanggung.
Kata-kata "Bumi" dan "bumi" mungkin memiliki arti yang sama, tetapi menurut algoritma word2vec, itu memperoleh informasi semantik dari posisi kata-kata.
Jadi secara umum, "Bumi" akan muncul paling sering pada awal kalimat sebagai subjek dan "bumi" akan muncul sebagian besar dalam bentuk objek di akhir. Jadi, kata-kata yang berdekatan terdekat mungkin berbeda, tetapi secara keseluruhan kedua kalimat itu mungkin mengandung kata-kata seperti "polusi, iklim, air, negara".
Sebagai kesimpulan, saya kira dengan ukuran jendela yang lebih besar, tampaknya mempertahankan informasi semantik yang sama dengan sedikit perubahan di mana "Bumi" akan memiliki beberapa informasi subjek dan "bumi" akan memiliki informasi objek. Jadi, rata-rata tidak akan banyak mempengaruhi dan tampaknya menjadi kasus yang mungkin. Tetapi dengan ukuran jendela yang lebih rendah, ada kemungkinan besar bahwa itu bisa memiliki arti yang berbeda.
sumber