Buku bagus tentang penambangan teks?

11

Hai Saya ingin tahu apakah ada beberapa buku bagus tentang penggalian dan klasifikasi teks dengan beberapa studi kasus ?. Jika tidak beberapa makalah / jurnal dapat diakses oleh publik akan melakukannya. Jika mereka menggambarkan contoh mereka dengan R lebih baik. Saya tidak mencari langkah demi langkah manual tetapi sesuatu yang menggambarkan pro dan kontra dari berbagai pendekatan penambangan teks untuk berbagai kelas masalah.

dasman
sumber

Jawaban:

5

Lihat http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Data-Intensive Text Processing dengan MapReduce - buku ini cukup akademis tetapi mencakup sejumlah teknik pemrosesan teks yang umum digunakan dan bagaimana mereka dapat diparalelkan lebih dari dataset besar menggunakan pengurangan peta.

www.rtexttools.com Ini adalah paket R yang luar biasa yang membantu Anda menerapkan berbagai algoritma klasifikasi (termasuk beberapa metode ensemble) ke analisis teks. dan

Ross Farrelly
sumber
4
Untuk membuat jawaban ini lengkap, bisakah Anda memberikan ringkasan singkat dari setiap tautan?
chl
4

Saya baru saja membaca empat buku di bidang ini:

Feldman, R. dan James Sanger, J. (2006). Buku Pegangan Penambangan Teks: Pendekatan Lanjutan dalam Menganalisis Data Tidak Terstruktur. Cambridge University Press.

Yang ini berfokus pada contoh-contoh praktis, perangkat lunak dan penambangan teks terapan. Ini memberikan beberapa contoh penggunaan praktis penambangan teks. Mungkin menarik jika Anda ingin membaca tentang aplikasi komersial alat penambangan teks.

Srivastava, AN dan Sahami, M. (2009). Penambangan Teks: Klasifikasi, Klaster, dan Aplikasi. Chapman & Hall / CRC.

Ini adalah serangkaian makalah penelitian yang digunakan sebagai contoh penggunaan berbagai alat penambangan teks. Itu agak terlalu fokus untuk tes pengantar.

Weiss, SM, Indurkhya, N., Zhang, T. dan Damerau, F. (2005). Penambangan Teks: Metode Prediktif untuk Menganalisis Informasi Tidak Terstruktur. Peloncat.

Teks yang sangat pengantar yang menjelaskan beberapa masalah umum.

Manning, C. (1999). Yayasan Pengolahan Bahasa Alam Statistik. MIT Press.

Ini adalah buku terbaik yang sudah saya baca tentang topik ini. Itu ditulis dengan baik, jelas, masuk lebih dalam ke teori tetapi dengan cara yang ramah praktik. Mulai dengan pengantar umum, tetapi kemudian mengulas beberapa metode dan algoritma yang paling umum digunakan. Jika Anda harus memilih hanya satu buku, saya akan merekomendasikan buku ini.

Anda juga dapat dengan mudah menemukan banyak buku tentang pemrosesan bahasa alami dan penggalian teks yang berfokus pada penggunaan R ( tm library) atau Python ( perpustakaan nltk ).

Tim
sumber
2

Ini mungkin tidak tepat pada poin untuk apa yang Anda cari, tetapi Menguasai Ekspresi Reguler oleh Jeffrey Friedl adalah sumber yang bagus untuk belajar bagaimana menggunakan ekspresi reguler untuk mengurai teks. Dia tidak membahas teknik-teknik pemodelan, tetapi, dipersenjatai dengan jumlah dari penerapan ekspresi reguler, Anda dapat menerapkan berbagai pendekatan pemodelan standar.

Charlie
sumber
2

Satu buku yang saya kembali ke waktu dan lagi untuk ide adalah Penambangan Teks: Metode Prediktif ... oleh Sholom Weiss. Ini memiliki banyak ide untuk mendekati masalah yang menurut saya berguna karena kadang-kadang penambangan teks adalah tentang mencoba hal-hal yang berbeda - Kamus global vs lokal, jumlah fitur yang harus disimpan, dll. Saya menemukan buku ini sebagai generator ide yang bagus. Ini juga memiliki studi kasus.

Bangun2 Tidur
sumber
0

Saya menyarankan NLP di http://www.nltk.org/ gratis dan berpasangan dengan NLTK dengan python. semua yang terbaik

Pradi KL
sumber