Setelah melatih vektor kata dengan word2vec, apakah lebih baik untuk menormalkannya sebelum menggunakannya untuk beberapa aplikasi hilir? Yaitu apa pro / kontra dari menormalkan mereka?
natural-language
word2vec
word-embeddings
Franck Dernoncourt
sumber
sumber
Jawaban:
Ketika aplikasi hilir hanya peduli tentang arah kata vektor (misalnya mereka hanya memperhatikan kesamaan cosinus dari dua kata), maka normalkan, dan lupakan tentang panjang.
Namun, jika aplikasi hilir dapat (atau perlu) mempertimbangkan aspek yang lebih masuk akal, seperti signifikansi kata , atau konsistensi dalam penggunaan kata (lihat di bawah), maka normalisasi mungkin bukan ide yang baik.
Dari Levy et al., 2015 (dan, sebenarnya, sebagian besar literatur tentang kata embeddings):
Juga dari Wilson dan Schakel, 2015 :
Normalisasi sama dengan kehilangan pengertian panjang. Artinya, setelah Anda menormalkan vektor kata, Anda lupa panjang (norma, modul) yang mereka miliki setelah fase pelatihan.
Namun, kadang - kadang ada baiknya mempertimbangkan panjang asli dari vektor kata.
Schakel dan Wilson, 2015 mengamati beberapa fakta menarik mengenai panjang vektor kata:
sumber