Saya seorang programmer tanpa latar belakang statistik, dan saat ini saya sedang mencari metode klasifikasi yang berbeda untuk sejumlah besar dokumen yang berbeda yang ingin saya klasifikasikan ke dalam kategori yang telah ditentukan. Saya telah membaca tentang kNN, SVM dan NN. Namun, saya kesulitan memulai. Sumber daya apa yang Anda rekomendasikan? Saya tahu variabel tunggal dan kalkulus multi variabel dengan cukup baik, jadi matematika saya harus cukup kuat. Saya juga memiliki buku Bishop di Neural Networks, tetapi buku itu terbukti agak padat sebagai pengantar.
32
Teks pengantar yang bagus yang mencakup topik yang Anda sebutkan adalah Pengantar Pengambilan Informasi , yang tersedia online dalam teks lengkap secara gratis.
sumber
Jaringan saraf mungkin lambat untuk sejumlah besar dokumen (juga ini sekarang cukup usang).
Dan Anda juga dapat memeriksa Hutan Acak di antara pengklasifikasi; cukup cepat, sisiknya bagus dan tidak perlu penyetelan yang rumit.
sumber
Jika Anda berasal dari sisi pemrograman, salah satu opsi adalah menggunakan Natural Language Toolkit (NLTK) untuk Python. Ada buku O'Reilly, tersedia secara bebas , yang mungkin merupakan pengantar yang kurang padat dan lebih praktis untuk membangun pengklasifikasi untuk dokumen.
Jika Anda tertarik untuk menambah sisi statistik, buku Roger Levy sedang dalam proses, Probabilistic Models in Study of Language , mungkin tidak buruk untuk dibaca dengan teliti. Ini ditulis untuk siswa pascasarjana cogsci / compsci memulai dengan teknik NLP statistik.
sumber
Pertama saya dapat merekomendasikan Anda buku Yayasan statistik pengolahan bahasa alami oleh Manning dan Schütze.
Metode yang akan saya gunakan adalah distribusi frekuensi kata dan model bahasa ngram. Yang pertama berfungsi dengan sangat baik ketika Anda ingin mengklasifikasikan pada topik dan topik Anda spesifik dan ahli (memiliki kata kunci). Pemodelan Ngram adalah cara terbaik ketika Anda ingin mengklasifikasikan gaya penulisan dll.
sumber
Naif Bayes biasanya merupakan titik awal untuk klasifikasi teks, inilah artikel dari Dr. Dobbs tentang cara mengimplementasikannya. Ini juga sering menjadi titik akhir untuk klasifikasi teks karena sangat efisien dan sejajar dengan baik, SpamAssassin dan POPFile menggunakannya.
sumber