Bagaimana cara mendapatkan basis data kata bahasa Inggris? [Tutup]

148

Saya membutuhkan database setiap kata yang valid dalam bahasa Inggris. Saya memeriksa /usr/share/dict/wordsfile tersebut, mengandung kurang dari 100 ribu kata. Wikipedia mengatakan bahasa Inggris memiliki 475 ribu kata. Di mana saya mendapatkan daftar lengkap (ejaan Amerika)?

Juga, apakah ada situs web tunggal yang memberikan kata-kata untuk bahasa lain juga, termasuk yang Asia dan Eropa?

Sunting: Lupa menambahkan, saya tidak perlu nama dll, hanya kata-kata bahasa Inggris yang valid.

Costique
sumber
9
/usr/share/dict/wordsKata saya 479829, jadi mungkin ada beberapa variasi di sini (dan mungkin cocok untuk yang lain).
marshall.ward
4
wc -l /usr/share/dict/wordspada Mac adalah 235.886 kata (Juli 2014 - OSX Mavericks 10.9.4)
nelsonic
2
Daftar terbaik yang saya temukan: raw.githubusercontent.com/docdis/english-words/master/… . Terima kasih kepada @nelsonic.
james.garriss
1
Anda bisa mendapatkan daftar di sini marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. cari tautan WORDLIST di sebelah kanan
kofifus

Jawaban:

75

Basis data WordNet mungkin bermanfaat. Saya pernah bekerja pada add-on Firefox yang berhubungan dengan kata-kata dan semua jenis asosiasi sederhana hingga rumit antara mereka dan hal-hal lainnya. Sepertinya WordNet akan sangat bermanfaat bagi Anda.

Ini dia dalam format MySQL . Dan yang ini (tautan yang diarsipkan web) menggunakan data Wordnet v3.0, bukan data Wordnet 2.0 yang lebih lama.

pengguna266803
sumber
apakah mereka memiliki daftar yang dapat diunduh juga?
1
Ya, mereka memberi Anda fasilitas untuk mengunduh basis data mereka dalam banyak format - CSV, Database MySQL, dll. Dan bahkan memiliki API yang dapat Anda gunakan melalui .Net, Java dll ... Ini adalah halaman pengunduhan - wordnet.princeton .edu / wordnet / download
user266803
Saya belum mengunduhnya secara pribadi, tetapi sudah siap ketika saya mulai coding. Jadi saya tidak tahu file apa yang akan ada di mana unduhan. Saya hanya tahu bahwa Anda dapat mengunduh dalam berbagai format. Jika Anda dapat memberi tahu saya dalam format mana yang Anda inginkan, saya mungkin dapat membantu.
user266803
Sepertinya memang proyek yang sangat menarik.
Wim Hollebrandse
36

Anda dapat menemukan apa yang Anda butuhkan di infochimps.org .

Mereka memiliki daftar 350.000 kata sederhana (yaitu non-majemuk) yang tersedia untuk diunduh gratis.

Daftar Kata - 350.000+ Kata Bahasa Inggris Sederhana

Mengenai bahasa lain, Anda mungkin ingin mencari-cari di Wiktionary. Berikut ini adalah tautan ke semua cadangan basis data - informasinya mungkin tidak diatur tetapi jika mereka memiliki bahasa, Anda dapat mengunduh data dalam format SQL.

danben
sumber
6
Tautan unduhan telah berubah - infochimps.com/datasets/…
Chris Rae
36
Mengganggu file infochimps adalah .xls (file excel dengan kata-kata terbagi di 6 lembar kerja!) ... Saya telah mengekstrak semua 354986 kata menjadi file txt : github.com/nelsonic/english-words
nelsonic
@nelsonic terima kasih banyak, tautan infochimps adalah 404
1
@ChrisRae kedua tautan tidak berfungsi
garg10m
5
sepertinya mereka memasukkan kata-kata dengan salah eja, seperti teknologi - mungkin karena mereka mengumpulkan semua yang muncul di web. jadi itu bagus untuk pemecahan / validasi kata sandi, tetapi tidak baik untuk aplikasi yang membutuhkan kata-kata nyata (seperti pemeriksa ejaan, dll.).
maks
13

Saya tidak melihat http://wordlist.sourceforge.net/ disebutkan di sini, tetapi di situlah saya akan mulai jika saya mencari sesuatu seperti ini (dan saya sedang, ketika saya menemukan pertanyaan ini).

Jika Anda tidak dapat menemukan apa yang Anda inginkan di sana, dan apa yang Anda inginkan adalah daftar kata-kata bahasa Inggris, maka Anda mungkin harus meluangkan waktu ekstra untuk menjelaskan bagaimana mengenali apa yang Anda inginkan.

rdm
sumber
1
Saya berharap daftar yang lebih luas ini akan berisi kata-kata dengan tanda baca, seperti "C ++" atau "C #", tetapi tidak dapat menemukannya. Jadi, jika itu yang Anda cari, Anda dapat melakukan hubungan pendek, Anda dapat melewati yang satu ini (dan daftar yang lebih sempit dalam jawaban lain).
hobs
9

Tidak ada yang namanya daftar "lengkap". Orang yang berbeda memiliki cara pengukuran yang berbeda - misalnya, mereka mungkin termasuk slang, neologisme, frase multi-kata, istilah ofensif, kata-kata asing, konjugasi kata kerja, dan sebagainya. Beberapa orang bahkan menghitung sejuta kata ! Jadi, Anda harus memutuskan apa yang Anda inginkan dalam daftar kata.

JW.
sumber
3
Terima kasih atas tautannya. Bacaan yang sangat mencerahkan tentang berapa banyak kata yang ada dalam bahasa Inggris, dan kesia-siaan mencoba untuk mencapai jumlah yang pasti. Untuk bacaan yang lebih ringkas dan terbaru, ada juga ini: en.oxforddictionaries.com/explore/language-questions/… .
Prometheus
4

Anda dapat memeriksa *spell kamus en-GB yang digunakan oleh Mozilla, OpenOffice, banyak perangkat lunak lain.

mloskot
sumber
tautan di mozilla en-gb.pyxidium.co.uk/dictionary/en_GB.zip mengatakan Server tidak ditemukan, ada pembaruan? terima kasih
@AMB Thx, saya memperbarui tautan untuk menunjuk ke sumber alternatif kamus di extensions.openoffice.org/en/project/…
mloskot
Dan sekarang tautan baru adalah 404, @mloskot.
james.garriss
@ james.garriss Saya khawatir, seluruh situs extensions.openoffice.org tampaknya turun.
mloskot
3

Anda tidak mengatakan untuk apa Anda membutuhkan daftar ini. Jika sesuatu yang digunakan sebagai daftar hitam untuk pemeriksaan kata sandi sudah cukup, cracklib mungkin baik untuk Anda. Ini berisi lebih dari 1,5 juta kata.

Benjamin Bannier
sumber
1
tidak, tidak untuk daftar hitam. Saya sedang melakukan semacam permainan kata / grafik.
Ini memiliki banyak "kata-kata sampah", namun saya masih sangat berterima kasih karena Anda meletakkannya di sini - ini sempurna ketika mencari kata-kata spesifik yang tidak dimiliki kamus lain (mis.
Firetruck