Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan perluasan model word2vec. Makalah ini melaporkan kinerja canggih pada analisis sentimen menggunakan teknik ini.
Saya berharap untuk mengevaluasi teknik ini pada masalah klasifikasi teks lainnya, sebagai alternatif untuk representasi bag-of-words tradisional. Namun, saya berlari melintasi posting oleh penulis kedua di utas di grup Google word2vec yang memberi saya jeda:
Saya mencoba mereproduksi hasil Quoc selama musim panas; Saya bisa mendapatkan tingkat kesalahan pada dataset IMDB menjadi sekitar 9,4% - 10% (tergantung pada seberapa baik normalisasi teks itu). Namun, saya tidak bisa mendekati apa yang dilaporkan Quoc di koran (7,4% kesalahan, itu perbedaan besar) ... Tentu saja kami juga bertanya kepada Quoc tentang kode tersebut; dia berjanji untuk menerbitkannya tetapi sejauh ini tidak ada yang terjadi. ... Saya mulai berpikir bahwa hasil Quoc sebenarnya tidak dapat direproduksi.
Adakah yang sudah berhasil mereproduksi hasil ini?
sumber
Jawaban:
Catatan kaki di http://arxiv.org/abs/1412.5335 (salah satu penulisnya adalah Tomas Mikolov) mengatakan
sumber