Contoh penggalian teks dengan R (paket tm)

14

Saya menghabiskan tiga hari mencoba-coba tmsetelah membaca kertas konsep oleh seorang teman di mana ia menjelajahi corpus teks dengan UCINET, menunjukkan awan teks, grafik jaringan dua mode dan Dekomposisi Nilai Tunggal (dengan grafik, menggunakan Stata). Saya berlari di bawah sejumlah besar masalah: pada Mac OS X, ada masalah dengan Java di belakang perpustakaan seperti Snowball (stemming) atau Rgraphviz (grafik).

Bisakah seseorang menunjukkan bukan paket - saya telah melihat tm, wordfishdan wordscores, dan tahu tentang NLTK - tetapi penelitian, jika mungkin dengan kode, pada data tekstual, yang berhasil menggunakan tmatau sesuatu yang lain untuk menganalisis data seperti debat parlemen atau dokumen legislatif? Sepertinya saya tidak dapat menemukan banyak tentang masalah ini, dan bahkan lebih sedikit kode untuk dipelajari.

Proyek saya sendiri adalah debat parlemen dua bulan, dengan variabel-variabel ini diinformasikan dalam file CSV: sesi parlemen, pembicara, kelompok parlemen, teks intervensi lisan. Saya mencari perbedaan antara penutur dan terutama antara kelompok-kelompok parlemen dalam penggunaan istilah yang jarang dan tidak terlalu jarang, misalnya "pembicaraan keamanan" melawan pembicaraan "kebebasan sipil".

Fr.
sumber

Jawaban:

7

Disertasi PhD dari Penulis tm, Ingo Feinerer dari Austria, ditulis dalam bahasa Inggris. Bab 7-10 dokumen ini berisi aplikasi paket tm, dengan kompleksitas yang semakin meningkat.

http://epub.wu.ac.at/1923/

Bab 7 menyajikan aplikasi tm dengan menganalisis milis R-devel 2006. Bab 8 menunjukkan aplikasi penambangan teks untuk bisnis ke perdagangan elektronik konsumen. Bab 9 adalah aplikasi tm untuk menyelidiki yurisdiksi pengadilan administratif tertinggi Austria mengenai iuran dan pajak. [...] . Bab 10 menunjukkan aplikasi untuk atribusi stylometry dan kepengarangan pada kumpulan data Wizard of Oz.

Baca seluruh dokumen sampul depan. Perhatikan, bagaimanapun, bahwa dokumen tersebut ditulis pada tahun 2008, dan sejak itu telah ada beberapa perubahan API, misalnya, tesis PhD menyebutkan fungsi tmMap()yang telah diubah namanya menjadi tm_map(). Jadi contoh kode tidak akan berfungsi apa adanya, Anda tidak dapat menggunakan cut-and-paste untuk mencobanya.

Anda juga bisa pergi ke

http://tm.r-forge.r-project.org/users.html

"Dalam upaya untuk memberi tahu pengguna baru tentang aplikasi tm yang ada, situs ini bertujuan untuk menyediakan (alfabet tidak lengkap) daftar pengguna tm dan komentar mereka. Pengguna yang dikenal berkisar dari lembaga penelitian atas perusahaan hingga perorangan."

dan cari pada halaman itu untuk frasa "tulis makalah" dan Anda akan menemukan banyak tautan. Saya hanya membaca salah satu makalah, "deteksi topik otomatis dalam lirik lagu". Cukup menarik, dan lucu.

knb
sumber
Saya pikir disertasi Feinerer adalah dokumen yang paling membantu saya sejauh ini. Terima kasih!
Fr.
5

Tempat yang baik untuk memulai mungkin adalah daftar publikasi di situs web untuk tm, seperti yang ini:

Daftar referensi di akhir setiap publikasi ini termasuk aplikasi yang berhasil tm, yang sepertinya Anda cari. Ada banyak - terutama jika Anda kemudian mengikuti referensi dari referensi tersebut.

Misalnya, Berikut ini yang mungkin relevan:

Feinerer I, Hornik K (2007). \ Penambangan Teks Yurisdiksi Pengadilan Administratif Tertinggi. "Dalam C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds.), \ Analisis Data, Pembelajaran Mesin, dan Aplikasi (Prosiding Konferensi Tahunan Gesellschaft ke 31 Klassikation eV, 7 Maret {9, 2007, Freiburg, Jerman), "Studi dalam Klasifikasi, Analisis Data, dan Organisasi Pengetahuan. Springer-Verlag.

Semoga berhasil.

Seorang pria
sumber
Terima kasih untuk referensi. Namun, tingkat perinciannya tidak mencukupi dalam publikasi ini - saya harus membaca dari disertasi Feinerer untuk mendapatkan detail yang cukup tentang cara beroperasi tmdi pihak saya. Tetap saja, terima kasih banyak :)
Fr.