Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi yang layak atau tutorial yang layak untuk jenis model itu. Karena saya bekerja dengan corpus atipikal, alat NER standar di NLTK dan sejenisnya berkinerja sangat buruk, dan sepertinya saya harus melatih sistem saya sendiri.
Singkatnya, sumber daya apa yang tersedia untuk masalah seperti ini? Apakah ada implementasi standar neural rekursif neural tersedia?
machine-learning
python
neural-network
nlp
Madison May
sumber
sumber
Jawaban:
Alih-alih "jaring saraf rekursif dengan propagasi kembali" Anda mungkin mempertimbangkan pendekatan yang digunakan oleh Frantzi, et. Al. di Pusat Penambangan Teks Nasional (NaCTeM) di Universitas Manchester untuk Termine (lihat: http://www.nactem.ac.uk/index.php dan http://personalpages.manchester.ac.uk/staff/sophia. ananiadou / IJODL2000.pdf ) Alih-alih jaring saraf yang dalam, mereka "menggabungkan informasi linguistik dan statistik".
sumber
Dua makalah baru-baru ini menggunakan arsitektur pembelajaran mendalam yang disebut CharWNN untuk mengatasi masalah ini. CharWNN pertama kali digunakan untuk mendapatkan hasil seni (tanpa fitur buatan tangan) pada penandaan Part of Speech (POS) pada corpus bahasa Inggris.
The kedua kertas oleh penulis yang sama menggunakan arsitektur yang sama (atau serupa) untuk memprediksi apakah kata milik 10 kelas Entity Bernama, dengan keadaan nyata dari hasil seni.
sumber
Coba http://deeplearning4j.org/word2vec.html . Ini memiliki implementasi Word2Vec digunakan sebagai ganti dari Bag of Words untuk NER dan tugas-tugas NLP lainnya.
sumber
Berikut adalah beberapa ide tentang cara menggunakan vektor kata untuk NER, yang mengadopsi pendekatan word2vec-centric yang sebagian besar tidak diawasi.
findCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])
mungkin mengembalikan daftar yang berisi ratusan kata yang sebagian besar terkait dengan emosi. Jika Anda menamai daftar ini 'emosi', maka di sana Anda memiliki konsep bernama 'emosi' yang ditentukan berdasarkan ruang vektor.sumber