Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih "informal" daripada entri artikel artikel dan jurnal yang saat ini banyak dikenal sebagai sistem pengenal entitas bernama dilatih.
Ada rekomendasi? Sejauh ini saya hanya dapat menemukan token 50k dari twitter yang diterbitkan di sini .
Jawaban:
Seperti yang saya pahami, ini adalah properti yang Anda cari dalam dataset sampel:
Berikut ini beberapa rekomendasi:
rvest
,scrapeR
, dll) dan Python untuk mencapai hal inisumber
Periksa ini:
Repositori Domain Uji untuk Ekstraksi Informasi: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( mirror )
Tautan Diperbarui:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
sumber
Beberapa sumber yang saya gunakan:
Saya pikir set data ini akan sangat membantu untuk tugas Anda
sumber