Apakah kinerja canggih menggunakan vektor paragraf untuk analisis sentimen telah direplikasi?

20

Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan perluasan model word2vec. Makalah ini melaporkan kinerja canggih pada analisis sentimen menggunakan teknik ini.

Saya berharap untuk mengevaluasi teknik ini pada masalah klasifikasi teks lainnya, sebagai alternatif untuk representasi bag-of-words tradisional. Namun, saya berlari melintasi posting oleh penulis kedua di utas di grup Google word2vec yang memberi saya jeda:

Saya mencoba mereproduksi hasil Quoc selama musim panas; Saya bisa mendapatkan tingkat kesalahan pada dataset IMDB menjadi sekitar 9,4% - 10% (tergantung pada seberapa baik normalisasi teks itu). Namun, saya tidak bisa mendekati apa yang dilaporkan Quoc di koran (7,4% kesalahan, itu perbedaan besar) ... Tentu saja kami juga bertanya kepada Quoc tentang kode tersebut; dia berjanji untuk menerbitkannya tetapi sejauh ini tidak ada yang terjadi. ... Saya mulai berpikir bahwa hasil Quoc sebenarnya tidak dapat direproduksi.

Adakah yang sudah berhasil mereproduksi hasil ini?

bskaggs
sumber
Apakah situasi ini sudah berubah? Saya tahu bahwa Gensim telah mengimplementasikan versi doc2vec (paragraf / dokumen vektor), lihat: radimrehurek.com/gensim/models/doc2vec.html tetapi tidak ada upaya untuk mereproduksi hasil dalam makalah yang dikutip di sini.
Doctorambient
1
Ya, ada upaya untuk mereproduksi hasil kertas menggunakan gensim : lihat notebook IPython doc2vec .
Radim

Jawaban:

13

Catatan kaki di http://arxiv.org/abs/1412.5335 (salah satu penulisnya adalah Tomas Mikolov) mengatakan

Dalam percobaan kami, untuk mencocokkan hasil dari (Le & Mikolov, 2014), kami mengikuti saran oleh Quoc Le untuk menggunakan softmax hierarkis alih-alih pengambilan sampel negatif. Namun, ini menghasilkan hasil akurasi 92,6% hanya ketika data pelatihan dan tes tidak dikocok. Karenanya, kami menganggap hasil ini tidak valid.

Mikhail Korobov
sumber
1
Saya tidak mengerti mengapa "tidak dikocok" ==> tidak valid. Apakah tidak ada pemisahan yang jelas antara set kereta / tes? Jadi, apa itu train / test tergantung pada bagaimana Anda mengocok dataset (asli)? Urutan set tes seharusnya tidak masalah (tidak ada evaluasi dinamis, kan?). Dan urutan set latihan seharusnya tidak terlalu menjadi masalah, ...
capybaralet
@ user2429920 Jika mereka mendapatkan perbedaan, maka jelas urutannya tidak masalah.
JAB