Saya telah mengimplementasikan sistem NER dengan menggunakan algoritma CRF dengan fitur buatan tangan saya yang memberikan hasil yang cukup baik. Masalahnya adalah saya menggunakan banyak fitur berbeda termasuk tag POS dan lemmas.
Sekarang saya ingin membuat NER yang sama untuk bahasa yang berbeda. Masalahnya di sini adalah saya tidak bisa menggunakan tag POS dan lemmas. Saya mulai membaca artikel tentang pembelajaran yang mendalam dan pembelajaran fitur yang tidak diawasi.
Pertanyaanku adalah:
Apakah mungkin menggunakan metode untuk pembelajaran fitur tanpa pengawasan dengan algoritma CRF? Adakah yang mencoba ini dan mendapat hasil yang bagus? Apakah ada artikel atau tutorial tentang masalah ini?
Saya masih belum sepenuhnya memahami cara pembuatan fitur ini sehingga saya tidak ingin menghabiskan banyak waktu untuk sesuatu yang tidak akan berhasil. Jadi informasi apa pun akan sangat membantu. Untuk membuat keseluruhan sistem APM berdasarkan pembelajaran yang dalam adalah sedikit banyak untuk saat ini.
sumber
Dalam makalah 2014 ini ( GitHub ), penulis membandingkan beberapa strategi menggabungkan embeddings kata dalam sistem NER berbasis CRF, termasuk embedding padat, embedded biner, embedding klaster, dan metode prototipe novel . Menggunakan vektor padat secara langsung seperti yang disarankan oleh vlad adalah cara yang paling mudah tetapi juga paling tidak efektif dalam beberapa evaluasi.
Saya menerapkan ide prototipe dalam proyek NER khusus domain saya dan itu bekerja cukup baik untuk saya.
sumber
Saya hanya terlambat 5 bulan tetapi dengan CRFSuite Anda benar-benar dapat menggunakan fitur float sebagai angka, bukan sebagai string. Untuk ini, Anda hanya perlu membuat label unik untuk setiap dimensi lalu menambahkan ":" diikuti nilainya.
Misalnya, kata "hutan" diwakili dalam 5 dimensi: 0,1 0,4 0,8 0,2 0,9
Maka CRFSuite akan menggunakan fitur + kata tersebut sebagai:
LABEL f1: 0,1 f2: 0,4 f3: 0,8 f4: 0,2 f5: 0,9
di mana tentu saja Anda mengganti `` LABEL '' dengan string aktual dan Anda memisahkan semua spasi dengan tab (itulah format untuk CRFSuite).
Tidak yakin untuk paket lain.
sumber