Di mana saya bisa mendapatkan serangkaian sampel teks yang beragam? [Tutup]

14

Saya mencoba mengumpulkan statistik tentang urutan karakter atau kata yang digunakan dalam bahasa Inggris untuk digunakan dalam proyek perangkat lunak.

Di mana saya bisa mendapatkan teks bahasa Inggris dalam jumlah besar (beberapa GB lebih baik) yang mencakup beragam topik?

JSideris
sumber
3
Entah bagaimana saya merasa Anda akan sangat menikmati ilustrasi ini
yannis
@Yannis Rizos Ini luar biasa: D.
JSideris
@Yannis Rizos oh mereka cantik ...
sevenseacat
@YannisRizos Ini ditutup beberapa tahun lalu. Saya akhirnya sempat mengedit pertanyaan sehingga sedikit lebih spesifik dan lebih baik untuk format QA. Bisakah saya mendapatkannya tidak ditutup sekarang? (Anda satu-satunya orang di utas ini yang masih moderator).
JSideris

Jawaban:

19

Anda dapat menggunakan kesedihan data Wikipedia . The Dump XML data untuk bahasa Indonesia yang meliputi revisi saat ini hanya sekitar 31 GB, jadi saya akan mengatakan itu akan menjadi awal yang baik untuk penelitian Anda. Tumpukan data cukup besar, jadi Anda harus mempertimbangkan mengekstraksi teks dari XML dengan parser SAX. WikiXMLJ adalah Java API berguna yang disesuaikan untuk Wikipedia.

Dan kemudian, tentu saja, selalu ada kesedihan data Stack Exchange . Yang terbaru mencakup semua situs Stack Exchange publik non-beta & situs Meta terkait hingga September 2011. Namun, secara alami pos Stack Exchange terkonsentrasi pada ruang lingkup setiap situs, jadi mungkin tidak seeneralisasi seperti yang Anda inginkan. Meta post agak lebih umum, jadi Anda bisa mempertimbangkannya selain Wikipedia.

Saya tidak berpikir Anda akan menemukan sesuatu yang lebih baik, terutama dalam teks biasa. Beberapa set data terbuka tersedia melalui Hub Data , tetapi saya pikir dump data Wikipedia bahasa Inggris sangat dekat dengan apa yang Anda cari.

yannis
sumber
1
itu adalah beberapa sumber yang keren.
hanzolo
Stack, meskipun luas, akan mencakup bidang wacana yang sangat sempit (karena kebutuhan), sehingga mereka mungkin tidak menggeneralisasi dengan baik.
jonsca
Ya Tuhan, file-file ini sangat besar! Segera setelah saya bisa menemukan cara untuk membukanya dan memfilter semua xml omong kosong ini akan bekerja dengan baik. Terima kasih!
JSideris
1
@Bizorke Senang saya bisa membantu. Setelah selesai, Anda harus memperbarui pertanyaan dengan tautan ke penelitian Anda.
yannis
5

Google memiliki kumpulan set data yang mereka gunakan untuk menentukan probabilitas n-gram. Memeriksa dataset bigram (2 gram) mereka akan memberi Anda gambaran yang bagus. Ada banyak perusahaan lain di luar sana yang analisisnya telah dilakukan.

jonsca
sumber
3
Saya hanya menulis hal yang sama.
jcmeloni
@jcmeloni Pemikiran hebat!
jonsca
5

Project Gutenberg memiliki kumpulan besar teks dalam bahasa Inggris, sudah dalam bentuk teks.

Project Gutenberg menawarkan lebih dari 42.000 ebook gratis: pilih di antara buku epub gratis, buku kindle gratis, unduh atau baca online.

Kami membawa ebook berkualitas tinggi: Semua ebook kami sebelumnya diterbitkan oleh penerbit bonafide. Kami mendigitalkan dan rajin mengoreksi mereka dengan bantuan ribuan sukarelawan ...

Michael Kohne
sumber
1
Saya berpikir tentang Proyek Gutenberg tetapi saya tidak dapat menemukan data dump terkonsentrasi. Dan agar sebuah buku dimasukkan, hak ciptanya harus kedaluwarsa, dan secara umum itu berarti bahwa 50 hingga 70 tahun telah berlalu sejak buku pertama kali diterbitkan. Jadi saya tidak berpikir bahwa sebagai kumpulan data, Project Gutenberg mewakili bahasa yang digunakan saat ini.
yannis
1
Jika Anda menginginkan sesuatu yang "mewakili bahasa seperti yang digunakan hari ini", coba komentar YouTube. Sedih tapi benar.
Jörg W Mittag
@ JörgWMittag - aduh. Yang benar-benar mengganggu saya adalah bagaimana Anda tidak salah.
Michael Kohne
@ Jörg W Mittag Mungkin saja, tetapi kemudian kata-kata tertentu khusus untuk youtube akan muncul sangat sering, seperti: YO OU UT TU UB BE, atau bahkan lebih buruk: FA AK KE AN ND GA AY
JSideris
1

Untuk statistik, Anda mungkin melihat "Frekuensi Bigram dalam bahasa Inggris". Lihatlah: Statistik Wiki-Bigram

Adapun untuk menemukan teks besar, perhatikan bahwa frekuensi akan bias ke jenis teks. Misalnya, jika Anda menganalisis alamat, Anda akan mendapatkan hasil yang berbeda dari menganalisis cerita surat kabar. Jika Anda hanya ingin menguji, Anda bisa menggunakan file PDF buku apa saja (lebih baik bukan matematika, atau pemrograman atau buku medis) dan mengonversinya menjadi teks kemudian jalankan tes Anda. Anda juga dapat mengonversi halaman web surat kabar ke teks dan mengerjakannya.

Tidak mungkin
sumber
2
Ya saya menyadari bahwa hasilnya akan menjadi bias. Saya membutuhkan sumber daya yang mencakup sebanyak mungkin mata pelajaran. Saya mempertimbangkan untuk mengunduh banyak e-book, masalah utamanya adalah mengubah semuanya menjadi teks. Tetapi tidak ada salahnya untuk mencari beberapa statistik bigram (saya tidak menyadari itulah yang disebut kombinasi 2 huruf).
JSideris
Terima kasih atas komentarmu. Anda dapat mengonversi PDF ke teks menggunakan File -> Save As Text di pembaca PDF ADOBE. Link ini juga mungkin nilai: data-compression.com/english.html
NoChance
@EmmadKareem OP meminta beberapa GB teks. Apakah Anda serius menyarankan dia menggunakan Adobe Reader untuk mengekstrak teks dari PDF?
yannis
@YannisRizos, saya tidak melihat bahwa beberapa GB merupakan persyaratan wajib. Jika ini masalahnya, ada alat yang lebih baik yang dapat digunakan untuk tujuan ini. Terima kasih telah menunjukkan ini.
NoChance