Saya membutuhkan database setiap kata yang valid dalam bahasa Inggris. Saya memeriksa /usr/share/dict/words
file tersebut, mengandung kurang dari 100 ribu kata. Wikipedia mengatakan bahasa Inggris memiliki 475 ribu kata. Di mana saya mendapatkan daftar lengkap (ejaan Amerika)?
Juga, apakah ada situs web tunggal yang memberikan kata-kata untuk bahasa lain juga, termasuk yang Asia dan Eropa?
Sunting: Lupa menambahkan, saya tidak perlu nama dll, hanya kata-kata bahasa Inggris yang valid.
/usr/share/dict/words
Kata saya 479829, jadi mungkin ada beberapa variasi di sini (dan mungkin cocok untuk yang lain).wc -l /usr/share/dict/words
pada Mac adalah 235.886 kata (Juli 2014 - OSX Mavericks 10.9.4)Jawaban:
Basis data WordNet mungkin bermanfaat. Saya pernah bekerja pada add-on Firefox yang berhubungan dengan kata-kata dan semua jenis asosiasi sederhana hingga rumit antara mereka dan hal-hal lainnya. Sepertinya WordNet akan sangat bermanfaat bagi Anda.
Ini dia dalam format MySQL . Dan yang ini (tautan yang diarsipkan web) menggunakan data Wordnet v3.0, bukan data Wordnet 2.0 yang lebih lama.
sumber
Anda dapat menemukan apa yang Anda butuhkan di infochimps.org .
Mereka memiliki daftar 350.000 kata sederhana (yaitu non-majemuk) yang tersedia untuk diunduh gratis.
Daftar Kata - 350.000+ Kata Bahasa Inggris Sederhana
Mengenai bahasa lain, Anda mungkin ingin mencari-cari di Wiktionary. Berikut ini adalah tautan ke semua cadangan basis data - informasinya mungkin tidak diatur tetapi jika mereka memiliki bahasa, Anda dapat mengunduh data dalam format SQL.
sumber
Saya tidak melihat http://wordlist.sourceforge.net/ disebutkan di sini, tetapi di situlah saya akan mulai jika saya mencari sesuatu seperti ini (dan saya sedang, ketika saya menemukan pertanyaan ini).
Jika Anda tidak dapat menemukan apa yang Anda inginkan di sana, dan apa yang Anda inginkan adalah daftar kata-kata bahasa Inggris, maka Anda mungkin harus meluangkan waktu ekstra untuk menjelaskan bagaimana mengenali apa yang Anda inginkan.
sumber
Tidak ada yang namanya daftar "lengkap". Orang yang berbeda memiliki cara pengukuran yang berbeda - misalnya, mereka mungkin termasuk slang, neologisme, frase multi-kata, istilah ofensif, kata-kata asing, konjugasi kata kerja, dan sebagainya. Beberapa orang bahkan menghitung sejuta kata ! Jadi, Anda harus memutuskan apa yang Anda inginkan dalam daftar kata.
sumber
Anda dapat memeriksa
*spell
kamus en-GB yang digunakan oleh Mozilla, OpenOffice, banyak perangkat lunak lain.sumber
Anda tidak mengatakan untuk apa Anda membutuhkan daftar ini. Jika sesuatu yang digunakan sebagai daftar hitam untuk pemeriksaan kata sandi sudah cukup, cracklib mungkin baik untuk Anda. Ini berisi lebih dari 1,5 juta kata.
sumber