Sumber daftar kata

11

Saya mencari sumber kata benda, kata keterangan, kata sifat, dan kata kerja dalam beberapa bahasa.

Saya ingin daftar sudah dipisah-pisah, dan tidak harus melalui OED (dan yang tidak setara dengan bahasa Inggris) dengan membuat ulang daftar tersebut secara manual.

Saya tidak terlalu peduli dengan definisi, dan saya mengerti beberapa kata dapat menjadi beberapa bagian ucapan - itu tidak masalah - kata-kata seperti "banyak" dapat berupa kata benda atau kata sifat, dan dapat muncul di kedua daftar.

Apakah ada orang di sini yang tahu sumber seperti itu? Jika tidak, mungkinkah seseorang bisa mengarahkan saya ke arah yang benar?

Saya setuju dengan format sebagai berikut: (atau serupa jika ada yang punya ide):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • file plaintext seperti "kata benda", "kata kerja", dll
  • tabel mysql
  • dll
warren
sumber

Jawaban:

8

Saya telah menggunakan WordNet dari Universitas Princeton untuk beberapa proyek. Ini adalah basis data leksikal dalam bahasa Inggris. Global WordNet adalah perpanjangan dari proyek yang mencoba melakukan hal yang sama untuk semua bahasa.

Anda mungkin juga tertarik dengan proyek terkait di http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
sumber
1
WordNet adalah caranya. Semua peneliti top menggunakan ini.
Ritwik Bose
4

Ini mungkin tidak membantu sama sekali, saya tidak tahu. Tetapi MediaWiki memiliki api untuk daftar semua halaman milik kategori tertentu. Anda dapat mencoba menggunakannya di Wiktionary.org.

Catatan:

  • Setiap kueri hanya mengembalikan 500 hasil. Namun, pada akhirnya, ia juga menentukan parameter untuk digunakan dalam kueri lain untuk mendapatkan 500 hasil berikutnya.
  • Ini mencakup segala sesuatu dalam kategori yang ditentukan, bahkan sub-kategori lainnya.
  • Hasil tampaknya dalam urutan abjad, meskipun semuanya dimulai dengan huruf kapital datang sebelum apa pun dalam huruf kecil.

Contoh:

Semoga ini bisa membantu, itu yang bisa saya pikirkan.

Matt Blaine
sumber
1

Saya akan saran @ teknikqa yang kedua dari wordnet, tapi saya sarankan Anda memeriksa API mereka;

STORYTIME : Saya mengikuti kursus AI yang memiliki bagian analisis bahasa; Saya menggunakan perl API wordnet untuk secara otomatis mencari tiga tipe definisi teratas, dan mengklasifikasikan frasa dari itu dalam waktu dekat .

Ada API di luar sana untuk Banyak bahasa

FYI: Proyek ini mendapat nilai A +

Andrew Bolster
sumber