Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?
Pertanyaan ini tampaknya di luar topik karena ini adalah tentang menemukan kumpulan data, daripada melakukan analisis statistik
Peter Flom - Reinstate Monica
2
Yah itu aneh, karena T&J ini sangat berguna.
Tontonan Bob
@guaka, tolong jangan menabrak posting lama seperti itu untuk suntingan kecil, terutama posting yang ditutup. Memang benar bahwa preferensi gaya kami bukan untuk memiliki "terima kasih", tetapi untuk sesuatu yang sepele ini, kami hanya akan meninggalkannya.
Ini bukan corpus yang paling menarik (atau beragam). Lisensi ini juga terbatas relatif terhadap Wikileaks (domain publik dokumen AS) atau wikinews.
ariddell
@ariddell saya setuju, tetapi umumnya digunakan dalam contoh pengantar NLP, dan cukup besar untuk berguna dalam pembelajaran tetapi cukup kecil untuk dianalisis pada laptop yang bagus.
Jawaban:
Tidakkah teks-teks Wikileaks cocok untuk Anda?
sumber
Bagaimana dengan wikinews ? Berikut ini adalah database dump terbaru yang bisa saya temukan: http://dumps.wikimedia.org/enwikinews/20111120/
Anda mungkin menginginkan "Semua halaman, hanya versi saat ini." - versi.
sumber
Corpus teks reuters adalah klasik di lapangan, dan dapat ditemukan di sini
sumber
http://endb-consolidated.aihit.com/datasets.htm berisi 10K perusahaan dengan deskripsi tekstual
sumber
Jika kebaruan bukan masalah, Anda dapat mencoba
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
dan ada banyak lagi dataset serupa lainnya di infochimp tergantung pada anggaran Anda.
Salam, Andy.
sumber
Jika Anda ingin n-gram yang dihitung sebelumnya, Anda dapat mencoba arsip buku google:
http://books.google.com/ngrams/datasets
sumber