Saya mencari untuk merancang suatu sistem yang diberi paragraf teks akan dapat mengkategorikannya dan mengidentifikasi konteksnya:
- Terlatih dengan paragraf teks yang dibuat pengguna (seperti komentar / pertanyaan / jawaban)
- Setiap item dalam set pelatihan akan ditandai. Jadi untuk mis ("kategori 1",, "paragraf teks")
- Akan ada ratusan kategori
Apa yang akan menjadi pendekatan terbaik untuk membangun sistem seperti itu? Saya telah melihat beberapa opsi berbeda dan berikut ini adalah daftar solusi yang memungkinkan. Apakah Word2Vec / NN solusi terbaik saat ini?
- Jaringan Tensor Neural Rekursif yang diumpankan dengan data Word2Vec rata-rata
- RNTN dan The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF digunakan dalam Deep Belief Network
- TF-IDF dan Regresi Logistik
- Kantong kata-kata dan klasifikasi Naif Bayes
Jawaban:
1) Max-Entropy (Regresi Logistik) pada vektor TFIDF adalah titik awal yang baik untuk banyak tugas klasifikasi NLP.
2) Word2vec jelas merupakan sesuatu yang patut dicoba dan dibandingkan dengan model 1. Saya akan menyarankan menggunakan rasa Doc2Vec untuk melihat kalimat / paragraf.
Quoc Le dan Tomas Mikolov. Representasi Kalimat dan Dokumen yang Didistribusikan. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (python) memiliki model Doc2vec yang bagus.
sumber