Haruskah saya menormalkan vektor kata word2vec sebelum menggunakannya?

38

Setelah melatih vektor kata dengan word2vec, apakah lebih baik untuk menormalkannya sebelum menggunakannya untuk beberapa aplikasi hilir? Yaitu apa pro / kontra dari menormalkan mereka?

Franck Dernoncourt
sumber
dalam tugas kesamaan, normalisasi sedikit meningkatkan kinerja sistem saya.
keramat

Jawaban:

30

Ketika aplikasi hilir hanya peduli tentang arah kata vektor (misalnya mereka hanya memperhatikan kesamaan cosinus dari dua kata), maka normalkan, dan lupakan tentang panjang.

Namun, jika aplikasi hilir dapat (atau perlu) mempertimbangkan aspek yang lebih masuk akal, seperti signifikansi kata , atau konsistensi dalam penggunaan kata (lihat di bawah), maka normalisasi mungkin bukan ide yang baik.


Dari Levy et al., 2015 (dan, sebenarnya, sebagian besar literatur tentang kata embeddings):

Vektor dinormalisasi menjadi satuan panjang sebelum digunakan untuk perhitungan kesamaan, membuat persamaan cosinus dan ekuivalen produk-titik.

Juga dari Wilson dan Schakel, 2015 :

Sebagian besar aplikasi embedding kata mengeksplorasi bukan kata vektor itu sendiri, tetapi hubungan di antara mereka untuk menyelesaikan, misalnya, kesamaan dan tugas hubungan kata. Untuk tugas-tugas ini, ditemukan bahwa menggunakan vektor kata yang dinormalisasi meningkatkan kinerja. Oleh karena itu, panjang vektor kata biasanya diabaikan.

Normalisasi sama dengan kehilangan pengertian panjang. Artinya, setelah Anda menormalkan vektor kata, Anda lupa panjang (norma, modul) yang mereka miliki setelah fase pelatihan.

Namun, kadang - kadang ada baiknya mempertimbangkan panjang asli dari vektor kata.

Schakel dan Wilson, 2015 mengamati beberapa fakta menarik mengenai panjang vektor kata:

Sebuah kata yang secara konsisten digunakan dalam konteks yang sama akan diwakili oleh vektor yang lebih panjang daripada kata dengan frekuensi yang sama yang digunakan dalam konteks yang berbeda.

Tidak hanya arah, tetapi juga panjang kata vektor membawa informasi penting.

Panjang vektor kata melengkapi, dalam kombinasi dengan frekuensi istilah, ukuran yang berguna dari signifikansi kata.

turdus-merula
sumber
Bisakah kita menguraikan "ditemukan bahwa menggunakan vektor kata yang dinormalisasi meningkatkan kinerja"? Bukankah normalisasi melibatkan perhitungan tambahan?
neurit
4
@neurite, dalam konteks itu, kinerja yang lebih baik mengacu pada skor yang lebih baik pada tugas evaluasi.
turdus-merula