Dataset untuk Pengakuan Entitas Bernama pada Teks Informal

18

Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih "informal" daripada entri artikel artikel dan jurnal yang saat ini banyak dikenal sebagai sistem pengenal entitas bernama dilatih.

Ada rekomendasi? Sejauh ini saya hanya dapat menemukan token 50k dari twitter yang diterbitkan di sini .

Madison May
sumber
2
Sarankan bertanya di opendata.stackexchange.com
Air
@Madison May. Apakah Anda menemukan kumpulan data? Saya mencari yang serupa. Terima kasih.
ahoffer
Saya harus puas dengan twitter ner corpus dari U. Washington (ditautkan dalam pos asli).
Madison
punya korpus Inggris beranotasi bagus yang terkait?
Achyuta nanda sahoo

Jawaban:

6

Seperti yang saya pahami, ini adalah properti yang Anda cari dalam dataset sampel:

  1. Data teks
  2. Itu harus informal, yaitu memiliki kesalahan ketik, gaul, dan pada dasarnya sesuatu yang tidak diedit secara profesional
  3. Sesuatu selain dari Twitter (Saya tidak menyalahkan Anda, Twitter adalah contoh sumber data yang berguna namun sering digunakan dalam penambangan teks)

Berikut ini beberapa rekomendasi:

  1. Email dari SpamAssassin corpus - perhatikan bahwa set data "ham" (non-spam) dan spam tersedia
  2. set data microblogPCU dari UCI, yang merupakan data yang diambil dari microblog pengguna Sina Weibo - perhatikan, data teks mentah adalah campuran dari bahasa Cina dan Inggris (Anda bisa melakukan terjemahan mesin dari bahasa Mandarin, memfilter hanya dalam bahasa Inggris, atau menggunakannya dengan adanya)
  3. Amazon Commerce mengulas dataset dari UCI
  4. Di dalam dataset bag-o-words , coba gunakan email Enron
  5. The Twenty Newsgroup dataset
  6. Koleksi spam SMS yang bagus
  7. Anda selalu dapat mengikis (mengekstrak) data teks Anda sendiri dari Internet; Saya tidak yakin bahasa atau paket statistik yang Anda gunakan, tetapi paket berbasis XPath tersedia dalam R ( rvest, scrapeR, dll) dan Python untuk mencapai hal ini
Hack-R
sumber
1
Apakah ada dari dataset ini yang dianotasi dengan entitas bernama? Saya percaya itulah yang dicari OP.
Tn. Phil