Mengapa melewatkan-gram lebih baik untuk kata-kata yang jarang terjadi daripada CBOW?

Jawaban:

14

Dalam CBOW vektor dari konteks kata rata-rata sebelum memprediksi kata pusat. Dalam skip-gram tidak ada rata-rata vektor penyematan. Sepertinya model dapat belajar representasi yang lebih baik untuk kata-kata langka ketika vektor mereka tidak dirata-rata dengan kata-kata konteks lainnya dalam proses membuat prediksi.

Harun
sumber
13

Inilah pemahaman saya tentang perbedaan yang terlalu disederhanakan dan agak naif:

Seperti yang kita ketahui, CBOW sedang belajar memprediksi kata berdasarkan konteksnya. Atau maksimalkan probabilitas kata target dengan melihat konteksnya. Dan ini merupakan masalah untuk kata-kata langka. Misalnya, mengingat konteksnya, yesterday was really [...] daymodel CBOW akan memberi tahu Anda bahwa kata yang paling mungkin adalah beautifulatau nice. Kata-kata seperti delightfulakan mendapatkan jauh lebih sedikit perhatian model, karena dirancang untuk memprediksi kata yang paling mungkin. Kata-kata langka akan diperhalus pada banyak contoh dengan kata-kata yang lebih sering.

Di sisi lain, skip-gram dirancang untuk memprediksi konteksnya. Mengingat kata delightfulitu harus memahaminya dan memberi tahu kita, bahwa ada kemungkinan besar, konteksnya yesterday was really [...] day, atau konteks lain yang relevan. Dengan lompat-gram kata delightfultidak akan mencoba bersaing dengan kata beautifulmelainkan sebaliknya, delightful+contextpasangan akan diperlakukan sebagai pengamatan baru. Karena itu, lompatan-gram akan membutuhkan lebih banyak data sehingga akan belajar untuk memahami kata-kata yang bahkan langka.

Serhiy
sumber
0

Saya baru saja menemukan kertas yang menunjukkan yang sebaliknya: bahwa CBOW lebih baik untuk kata-kata yang jarang terjadi daripada melewatkan-gram https://arxiv.org/abs/1609.08293 . Saya bertanya-tanya apa saja sumber klaim yang disebutkan di https://code.google.com/p/word2vec/ .

xsway
sumber
Saya percaya Mikolov menulis sendiri toolkit itu. Menariknya, dalam makalahnya: papers.nips.cc/paper/… ia menyatakan "Kami menunjukkan bahwa subsampling kata-kata yang sering selama pelatihan menghasilkan percepatan yang signifikan (sekitar 2x - 10x), dan meningkatkan akurasi representasi kata-kata yang kurang sering. " begitu lompatannya dengan ekstensi subsampling.
Kevin