Saya menggunakan pengindeksan semantik laten untuk menemukan kesamaan antara dokumen ( terima kasih, JMS! )
Setelah pengurangan dimensi, saya sudah mencoba k-means clustering untuk mengelompokkan dokumen menjadi cluster, yang berfungsi dengan sangat baik. Tapi saya ingin melangkah lebih jauh, dan memvisualisasikan dokumen sebagai satu set node, di mana jarak antara dua node berbanding terbalik dengan kesamaan mereka (node yang sangat mirip saling berdekatan).
Itu mengejutkan saya bahwa saya tidak dapat secara akurat mengurangi kesamaan matriks ke grafik 2 dimensi karena data saya> 2 dimensi. Jadi pertanyaan pertama saya: apakah ada cara standar untuk melakukan ini?
Bisakah saya mengurangi data saya menjadi dua dimensi dan kemudian memplotnya sebagai sumbu X dan Y, dan apakah itu cukup untuk sekelompok ~ 100-200 dokumen? Jika ini solusinya, apakah lebih baik mengurangi data saya menjadi 2 dimensi dari awal, atau adakah cara untuk memilih dua dimensi "terbaik" dari data multi dimensi saya?
Saya menggunakan Python dan perpustakaan gensim jika itu membuat perbedaan.
Jawaban:
Ada banyak kode yang tersedia untuk MDS (dan saya akan terkejut jika Scipy tidak memiliki beberapa versi). Bagaimanapun juga, selama Anda memiliki akses ke beberapa rutin SVD dengan python yang Anda atur.
sumber
Ada perangkat lunak bernama ggobi yang dapat membantu Anda. Ini memungkinkan Anda menjelajahi pseudo-spasi multi-dimensi. Ini sebagian besar untuk eksplorasi data tetapi antarmuka sangat ramah dan 'hanya berfungsi'!
Anda hanya perlu format CSV (di RI biasanya hanya menggunakan write.csv dengan parameter default) atau file XML (format ini memungkinkan Anda lebih banyak kontrol; Saya biasanya menyimpan tabel saya di CSV kemudian mengekspornya ke XML dengan ggobi dan mengeditnya secara manual misalnya mengubah urutan beberapa faktor).
sumber