Di mana menemukan corpus teks besar? [Tutup]

16

Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?

Dimitar Vouldjeff
sumber
Utas ini tampaknya bukan topik. Lihat meta.stats.stackexchange.com/questions/1032/… .
whuber
Pertanyaan ini tampaknya di luar topik karena ini adalah tentang menemukan kumpulan data, daripada melakukan analisis statistik
Peter Flom - Reinstate Monica
2
Yah itu aneh, karena T&J ini sangat berguna.
Tontonan Bob
@guaka, tolong jangan menabrak posting lama seperti itu untuk suntingan kecil, terutama posting yang ditutup. Memang benar bahwa preferensi gaya kami bukan untuk memiliki "terima kasih", tetapi untuk sesuatu yang sepele ini, kami hanya akan meninggalkannya.
gung - Reinstate Monica

Jawaban:

9

Tidakkah teks-teks Wikileaks cocok untuk Anda?

adamo
sumber
Tetapi bagaimana saya bisa mengunduhnya di .txt
Dimitar Vouldjeff
6

Bagaimana dengan wikinews ? Berikut ini adalah database dump terbaru yang bisa saya temukan: http://dumps.wikimedia.org/enwikinews/20111120/

Anda mungkin menginginkan "Semua halaman, hanya versi saat ini." - versi.

mogron
sumber
Ini tidak lagi berfungsi.
vy32
tautan pembuangan tidak lagi berfungsi. dataset menurut wilayah kecil dan ketinggalan jaman
HappyCoding
6

Corpus teks reuters adalah klasik di lapangan, dan dapat ditemukan di sini

richiemorrisroe
sumber
Ini bukan corpus yang paling menarik (atau beragam). Lisensi ini juga terbatas relatif terhadap Wikileaks (domain publik dokumen AS) atau wikinews.
ariddell
@ariddell saya setuju, tetapi umumnya digunakan dalam contoh pengantar NLP, dan cukup besar untuk berguna dalam pembelajaran tetapi cukup kecil untuk dianalisis pada laptop yang bagus.
richiemorrisroe
1

Jika Anda ingin n-gram yang dihitung sebelumnya, Anda dapat mencoba arsip buku google:

http://books.google.com/ngrams/datasets

tdc
sumber
bagaimana ini bisa digunakan?
HappyCoding