Saya bertanya-tanya mengapa softmax hierarkis lebih baik untuk kata-kata yang jarang, sedangkan pengambilan sampel negatif lebih baik untuk kata-kata yang sering, dalam CBOW dan skip-gram model word2vec. Saya telah membaca klaim di https://code.google.com/p/word2vec/ .
sumber