Saya telah bekerja di NLTK untuk sementara menggunakan Python. Masalah yang saya hadapi adalah tidak ada bantuan yang tersedia untuk melatih NER di NLTK dengan data khusus saya. Mereka telah menggunakan MaxEnt dan melatihnya pada ACE corpus. Saya telah mencari di web banyak tetapi saya tidak dapat menemukan cara yang dapat digunakan untuk melatih NER NLTK.
Jika ada yang bisa memberi saya tautan / artikel / blog dll yang dapat mengarahkan saya ke Format Pelatihan Data yang digunakan dalam pelatihan NER NLTK sehingga saya dapat menyiapkan Data saya pada format tertentu. Dan jika saya diarahkan ke tautan / artikel / blog dll yang dapat membantu saya MELATIH NER NLTK untuk data saya sendiri.
Ini adalah pertanyaan yang banyak dicari dan paling sedikit dijawab. Mungkin bermanfaat bagi seseorang di masa depan yang bekerja dengan NER.
sumber
Jawaban:
Pelatihan model, terkait dengan ekstraksi informasi , pada umumnya, dan diberi nama entitas pengakuan / resolusi (APM) , khususnya, dijelaskan secara rinci dalam Bab 7 dari NLTK Book , tersedia online di URL ini: http: //www.nltk .org / book / ch07.html .
Selain itu, saya pikir Anda mungkin menemukan jawaban terkait yang berguna di situs Cross Validated Ini memiliki banyak referensi ke sumber yang relevan tentang NER dan topik terkait serta berbagai perangkat lunak terkait .
sumber
Apakah artikel ini cukup baik? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training
Ada penjelasan tentang bagaimana seharusnya corpus.
Data Anda harus dalam format IOB (chunktag tag kata) untuk membuatnya berfungsi.
Eric NNP B-PERSON
adalah VB O CEO
AT B-NP
NN I-NP
dari IN O
Google NNP B-ORGANISASI
sumber
Saya menemukan tutorial ini cukup membantu: Panduan lengkap untuk membangun Named Entity Recognizer Anda sendiri dengan Python. Ia menggunakan korpus Groningen Meaning Bank (GMB) untuk melatih potongan NER-nya.
Setelah itu Anda dapat memeriksa tutorial ini dari orang yang sama: Melatih Sistem NER Menggunakan Dataset Besar Di mana ia menggunakan scikit belajar untuk meningkatkan kinerja sistemnya.
Akhirnya beberapa tutorial yang sangat berguna dapat ditemukan di sini: NLTK tutorial Orang ini memiliki saluran youtube dengan banyak tutorial di banyak mata pelajaran (ML, NLP, Python ...)
Semoga ini bisa membantu.
sumber