Saya mencoba mengumpulkan statistik tentang urutan karakter atau kata yang digunakan dalam bahasa Inggris untuk digunakan dalam proyek perangkat lunak.
Di mana saya bisa mendapatkan teks bahasa Inggris dalam jumlah besar (beberapa GB lebih baik) yang mencakup beragam topik?
research
statistics
JSideris
sumber
sumber
Jawaban:
Anda dapat menggunakan kesedihan data Wikipedia . The Dump XML data untuk bahasa Indonesia yang meliputi revisi saat ini hanya sekitar 31 GB, jadi saya akan mengatakan itu akan menjadi awal yang baik untuk penelitian Anda. Tumpukan data cukup besar, jadi Anda harus mempertimbangkan mengekstraksi teks dari XML dengan parser SAX. WikiXMLJ adalah Java API berguna yang disesuaikan untuk Wikipedia.
Dan kemudian, tentu saja, selalu ada kesedihan data Stack Exchange . Yang terbaru mencakup semua situs Stack Exchange publik non-beta & situs Meta terkait hingga September 2011. Namun, secara alami pos Stack Exchange terkonsentrasi pada ruang lingkup setiap situs, jadi mungkin tidak seeneralisasi seperti yang Anda inginkan. Meta post agak lebih umum, jadi Anda bisa mempertimbangkannya selain Wikipedia.
Saya tidak berpikir Anda akan menemukan sesuatu yang lebih baik, terutama dalam teks biasa. Beberapa set data terbuka tersedia melalui Hub Data , tetapi saya pikir dump data Wikipedia bahasa Inggris sangat dekat dengan apa yang Anda cari.
sumber
Google memiliki kumpulan set data yang mereka gunakan untuk menentukan probabilitas n-gram. Memeriksa dataset bigram (2 gram) mereka akan memberi Anda gambaran yang bagus. Ada banyak perusahaan lain di luar sana yang analisisnya telah dilakukan.
sumber
Project Gutenberg memiliki kumpulan besar teks dalam bahasa Inggris, sudah dalam bentuk teks.
sumber
Untuk statistik, Anda mungkin melihat "Frekuensi Bigram dalam bahasa Inggris". Lihatlah: Statistik Wiki-Bigram
Adapun untuk menemukan teks besar, perhatikan bahwa frekuensi akan bias ke jenis teks. Misalnya, jika Anda menganalisis alamat, Anda akan mendapatkan hasil yang berbeda dari menganalisis cerita surat kabar. Jika Anda hanya ingin menguji, Anda bisa menggunakan file PDF buku apa saja (lebih baik bukan matematika, atau pemrograman atau buku medis) dan mengonversinya menjadi teks kemudian jalankan tes Anda. Anda juga dapat mengonversi halaman web surat kabar ke teks dan mengerjakannya.
sumber