Di mana menemukan corpus teks besar? [Tutup]

16

Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?

dataset Dimitar Vouldjeff
sumber

Utas ini tampaknya bukan topik. Lihat meta.stats.stackexchange.com/questions/1032/… .

whuber

Pertanyaan ini tampaknya di luar topik karena ini adalah tentang menemukan kumpulan data, daripada melakukan analisis statistik

Peter Flom - Reinstate Monica

2

Yah itu aneh, karena T&J ini sangat berguna.

Tontonan Bob

@guaka, tolong jangan menabrak posting lama seperti itu untuk suntingan kecil, terutama posting yang ditutup. Memang benar bahwa preferensi gaya kami bukan untuk memiliki "terima kasih", tetapi untuk sesuatu yang sepele ini, kami hanya akan meninggalkannya.

gung - Reinstate Monica

9

Tidakkah teks-teks Wikileaks cocok untuk Anda?

adamo
sumber

Tetapi bagaimana saya bisa mengunduhnya di .txt

Dimitar Vouldjeff

6

Bagaimana dengan wikinews ? Berikut ini adalah database dump terbaru yang bisa saya temukan: http://dumps.wikimedia.org/enwikinews/20111120/

Anda mungkin menginginkan "Semua halaman, hanya versi saat ini." - versi.

mogron
sumber

Ini tidak lagi berfungsi.

vy32

tautan pembuangan tidak lagi berfungsi. dataset menurut wilayah kecil dan ketinggalan jaman

HappyCoding

6

Corpus teks reuters adalah klasik di lapangan, dan dapat ditemukan di sini

richiemorrisroe
sumber

Ini bukan corpus yang paling menarik (atau beragam). Lisensi ini juga terbatas relatif terhadap Wikileaks (domain publik dokumen AS) atau wikinews.

ariddell

@ariddell saya setuju, tetapi umumnya digunakan dalam contoh pengantar NLP, dan cukup besar untuk berguna dalam pembelajaran tetapi cukup kecil untuk dianalisis pada laptop yang bagus.

richiemorrisroe

3

http://endb-consolidated.aihit.com/datasets.htm berisi 10K perusahaan dengan deskripsi tekstual

Yuri
sumber

saat ini kedaluwarsa

Quonux

1

Jika kebaruan bukan masalah, Anda dapat mencoba

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

dan ada banyak lagi dataset serupa lainnya di infochimp tergantung pada anggaran Anda.

Salam, Andy.

drhanlau
sumber

Ini tidak lagi berfungsi

vy32

1

Jika Anda ingin n-gram yang dihitung sebelumnya, Anda dapat mencoba arsip buku google:

http://books.google.com/ngrams/datasets

tdc
sumber

bagaimana ini bisa digunakan?

HappyCoding

Di mana menemukan corpus teks besar? [Tutup]

Jawaban: