Saya bertanya-tanya mengapa melewatkan-gram lebih baik untuk kata-kata yang jarang terjadi daripada CBOW di word2vec. Saya telah membaca klaim di https://code.google.com/p/word2vec/ .
sumber
Saya bertanya-tanya mengapa melewatkan-gram lebih baik untuk kata-kata yang jarang terjadi daripada CBOW di word2vec. Saya telah membaca klaim di https://code.google.com/p/word2vec/ .
Dalam CBOW vektor dari konteks kata rata-rata sebelum memprediksi kata pusat. Dalam skip-gram tidak ada rata-rata vektor penyematan. Sepertinya model dapat belajar representasi yang lebih baik untuk kata-kata langka ketika vektor mereka tidak dirata-rata dengan kata-kata konteks lainnya dalam proses membuat prediksi.
Inilah pemahaman saya tentang perbedaan yang terlalu disederhanakan dan agak naif:
Seperti yang kita ketahui, CBOW sedang belajar memprediksi kata berdasarkan konteksnya. Atau maksimalkan probabilitas kata target dengan melihat konteksnya. Dan ini merupakan masalah untuk kata-kata langka. Misalnya, mengingat konteksnya, yesterday was really [...] day
model CBOW akan memberi tahu Anda bahwa kata yang paling mungkin adalah beautiful
atau nice
. Kata-kata seperti delightful
akan mendapatkan jauh lebih sedikit perhatian model, karena dirancang untuk memprediksi kata yang paling mungkin. Kata-kata langka akan diperhalus pada banyak contoh dengan kata-kata yang lebih sering.
Di sisi lain, skip-gram dirancang untuk memprediksi konteksnya. Mengingat kata delightful
itu harus memahaminya dan memberi tahu kita, bahwa ada kemungkinan besar, konteksnya yesterday was really [...] day
, atau konteks lain yang relevan. Dengan lompat-gram kata delightful
tidak akan mencoba bersaing dengan kata beautiful
melainkan sebaliknya, delightful+context
pasangan akan diperlakukan sebagai pengamatan baru. Karena itu, lompatan-gram akan membutuhkan lebih banyak data sehingga akan belajar untuk memahami kata-kata yang bahkan langka.
Saya baru saja menemukan kertas yang menunjukkan yang sebaliknya: bahwa CBOW lebih baik untuk kata-kata yang jarang terjadi daripada melewatkan-gram https://arxiv.org/abs/1609.08293 . Saya bertanya-tanya apa saja sumber klaim yang disebutkan di https://code.google.com/p/word2vec/ .