Saya mencari sumber kata benda, kata keterangan, kata sifat, dan kata kerja dalam beberapa bahasa.
Saya ingin daftar sudah dipisah-pisah, dan tidak harus melalui OED (dan yang tidak setara dengan bahasa Inggris) dengan membuat ulang daftar tersebut secara manual.
Saya tidak terlalu peduli dengan definisi, dan saya mengerti beberapa kata dapat menjadi beberapa bagian ucapan - itu tidak masalah - kata-kata seperti "banyak" dapat berupa kata benda atau kata sifat, dan dapat muncul di kedua daftar.
Apakah ada orang di sini yang tahu sumber seperti itu? Jika tidak, mungkinkah seseorang bisa mengarahkan saya ke arah yang benar?
Saya setuju dengan format sebagai berikut: (atau serupa jika ada yang punya ide):
- csv:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- file plaintext seperti "kata benda", "kata kerja", dll
- tabel mysql
- dll
Jawaban:
Saya telah menggunakan WordNet dari Universitas Princeton untuk beberapa proyek. Ini adalah basis data leksikal dalam bahasa Inggris. Global WordNet adalah perpanjangan dari proyek yang mencoba melakukan hal yang sama untuk semua bahasa.
Anda mungkin juga tertarik dengan proyek terkait di http://wordnet.princeton.edu/wordnet/related-projects/
sumber
Ini mungkin tidak membantu sama sekali, saya tidak tahu. Tetapi MediaWiki memiliki api untuk daftar semua halaman milik kategori tertentu. Anda dapat mencoba menggunakannya di Wiktionary.org.
Catatan:
Contoh:
Semoga ini bisa membantu, itu yang bisa saya pikirkan.
sumber
Saya akan saran @ teknikqa yang kedua dari wordnet, tapi saya sarankan Anda memeriksa API mereka;
STORYTIME : Saya mengikuti kursus AI yang memiliki bagian analisis bahasa; Saya menggunakan perl API wordnet untuk secara otomatis mencari tiga tipe definisi teratas, dan mengklasifikasikan frasa dari itu dalam waktu dekat .
Ada API di luar sana untuk Banyak bahasa
FYI: Proyek ini mendapat nilai A +
sumber