Saya memiliki masalah mengelompokkan kalimat dalam jumlah besar ke dalam kelompok dengan artinya. Ini mirip dengan masalah ketika Anda memiliki banyak kalimat dan ingin mengelompokkannya berdasarkan artinya.
Algoritma apa yang disarankan untuk melakukan ini? Saya tidak tahu jumlah cluster di muka (dan karena semakin banyak data yang datang, cluster juga dapat berubah), fitur apa yang biasanya digunakan untuk mewakili setiap kalimat?
Saya sedang mencoba fitur paling sederhana dengan daftar kata dan jarak antara kalimat yang didefinisikan sebagai:
(A dan B adalah kumpulan kata yang sesuai dalam kalimat A dan B)
Apakah ini masuk akal?
Saya mencoba menerapkan algoritma Mean-Shift dari pustaka scikit ke jarak ini, karena tidak memerlukan jumlah cluster di muka.
Jika ada yang akan menyarankan metode / pendekatan yang lebih baik untuk masalah ini - itu akan sangat dihargai karena saya masih baru dalam topik ini.
sumber