Menggunakan Clustering dalam pemrosesan teks

11

Hai, ini adalah pertanyaan pertama saya di tumpukan Ilmu Data. Saya ingin membuat algoritma untuk klasifikasi teks. Misalkan saya punya satu set besar teks dan artikel. Mari kita katakan sekitar 5000 teks biasa. Saya pertama kali menggunakan fungsi sederhana untuk menentukan frekuensi keempat kata karakter di atas. Saya kemudian menggunakan ini sebagai fitur dari setiap sampel pelatihan. Sekarang saya ingin algoritme saya dapat mengelompokkan set pelatihan sesuai dengan fitur mereka, yang di sini adalah frekuensi setiap kata dalam artikel. (Perhatikan bahwa dalam contoh ini, setiap artikel akan memiliki fitur uniknya sendiri karena setiap artikel memiliki fitur yang berbeda, misalnya artikel memiliki 10 "air dan 23" murni "dan yang lain memiliki 8" politik "dan 14" leverage "). Bisakah Anda menyarankan algoritma pengelompokan terbaik untuk contoh ini?

Rashid
sumber

Jawaban:

5

Saya tidak tahu apakah Anda pernah membaca SenseCluster oleh Ted Pedersen: http://senseclusters.sourceforge.net/ . Kertas yang sangat bagus untuk pengelompokan indera.

Juga, ketika Anda menganalisis kata-kata, pikirkan bahwa "komputer", "komputer", "komputer", ... mewakili satu konsep, jadi hanya satu fitur. Sangat penting untuk analisis yang benar.

Untuk berbicara tentang algoritma pengelompokan, Anda bisa menggunakan pengelompokan hierarkis . Pada setiap langkah algo, Anda menggabungkan 2 teks paling mirip sesuai dengan fitur-fiturnya (menggunakan ukuran ketidaksamaan, jarak euclidean misalnya). Dengan ukuran ketidaksamaan itu, Anda dapat menemukan jumlah cluster terbaik dan pengelompokan terbaik untuk teks dan artikel Anda.

Semoga berhasil :)

JC R
sumber
6

Jika Anda ingin melanjutkan pada jalur yang ada, saya sarankan untuk menormalkan frekuensi setiap istilah dengan popularitasnya di seluruh korpus, sangat jarang dan karenanya kata-kata prediktif dipromosikan. Kemudian gunakan proyeksi acak untuk mengurangi dimensi dari vektor yang sangat panjang ini hingga ke ukuran sehingga algoritma pengelompokan Anda akan bekerja lebih baik (Anda tidak ingin mengelompokkan dalam ruang dimensi tinggi).

Tetapi ada cara lain pemodelan topik. Baca tutorial ini untuk mempelajari lebih lanjut.

Emre
sumber