Teks-Klasifikasi-Masalah: Apakah Word2Vec / NN pendekatan terbaik?

10

Saya mencari untuk merancang suatu sistem yang diberi paragraf teks akan dapat mengkategorikannya dan mengidentifikasi konteksnya:

  1. Terlatih dengan paragraf teks yang dibuat pengguna (seperti komentar / pertanyaan / jawaban)
  2. Setiap item dalam set pelatihan akan ditandai. Jadi untuk mis ("kategori 1",, "paragraf teks")
  3. Akan ada ratusan kategori

Apa yang akan menjadi pendekatan terbaik untuk membangun sistem seperti itu? Saya telah melihat beberapa opsi berbeda dan berikut ini adalah daftar solusi yang memungkinkan. Apakah Word2Vec / NN solusi terbaik saat ini?

  1. Jaringan Tensor Neural Rekursif yang diumpankan dengan data Word2Vec rata-rata
  2. RNTN dan The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. TF-IDF digunakan dalam Deep Belief Network
  4. TF-IDF dan Regresi Logistik
  5. Kantong kata-kata dan klasifikasi Naif Bayes
Shankar
sumber
Bisakah Anda memperjelas kategori seperti apa? Apakah perlu menangani kategori baru dan / atau kata-kata yang tidak terlihat? Persyaratan mengenai istilah yang jarang dan kategori yang tidak terlihat akan membantu desain sistem.
NBartley
Terima kasih @NBartley. Kata-kata yang tak terlihat juga akan menjadi probabilitas tinggi. Paras input akan menjadi konten yang dibuat pengguna, maka kemungkinan kata-kata baru yang tak terlihat akan sangat tinggi. Kategori akan ditentukan, tetapi kita perlu memperluas daftar kategori dari waktu ke waktu. Terima kasih
Shankar
Anda harus memeriksa sense2vec juga arxiv.org/abs/1511.06388 . Singkatnya, kata embeddings ini dikombinasikan dengan penandaan Part-Of-Speech. Dilaporkan itu membuat embedding kata lebih akurat dengan menyangkal homonim. Akan menarik untuk melihat apakah itu juga meningkatkan kinerja dalam tugas klasifikasi.
wacax

Jawaban:

5

1) Max-Entropy (Regresi Logistik) pada vektor TFIDF adalah titik awal yang baik untuk banyak tugas klasifikasi NLP.

2) Word2vec jelas merupakan sesuatu yang patut dicoba dan dibandingkan dengan model 1. Saya akan menyarankan menggunakan rasa Doc2Vec untuk melihat kalimat / paragraf.

Quoc Le dan Tomas Mikolov. Representasi Kalimat dan Dokumen yang Didistribusikan. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) memiliki model Doc2vec yang bagus.

rushimg
sumber
Terima kasih @rushimg. Jika kategori terkait erat, yaitu para teks yang digunakan sebagai input memiliki sejumlah besar kata-kata umum, yang mana dari dua pendekatan yang lebih baik dalam memahami konteks dan membedakan antara keduanya?
Shankar
Saya akan menggunakan model Doc2Vec karena fakta bahwa itu menghilangkan asumsi bag-of-words dari model max-ent. Jika tf-idf digunakan sebagai fitur dalam model maks-ent maka ini juga akan mengurangi dampak dari kata-kata umum. Saya pikir mencoba kedua metode dan menyesuaikannya akan menjadi tindakan terbaik.
rushimg