Untuk dokumen teks, vektor fitur dapat memiliki dimensi yang sangat tinggi dan jarang di bawah representasi standar mana pun (sekumpulan kata atau TF-IDF, dll.). Mengukur jarak langsung di bawah representasi seperti itu mungkin tidak dapat diandalkan karena itu adalah fakta yang diketahui bahwa dalam dimensi yang sangat tinggi, jarak antara dua titik mulai terlihat sama. Salah satu cara untuk mengatasinya adalah dengan mengurangi dimensi data dengan menggunakan PCA atau LSA ( Latent Semantic Analysis ; juga dikenal sebagai Latent Semantic Indexing ) dan kemudian mengukur jarak di ruang baru. Menggunakan sesuatu seperti LSA melalui PCA menguntungkan karena dapat memberikan representasi yang bermakna dalam hal "konsep semantik", selain mengukur jarak dalam ruang dimensi yang lebih rendah.
Membandingkan dokumen berdasarkan distribusi probabilitas biasanya dilakukan dengan terlebih dahulu menghitung topik distribusi dari setiap dokumen (menggunakan sesuatu seperti Latent Dirichlet Allocation ), dan kemudian menghitung beberapa jenis divergensi (misalnya, KL divergensi) antara distribusi topik sepasang dokumen. Di satu sisi, itu sebenarnya agak mirip dengan melakukan LSA pertama dan kemudian mengukur jarak di ruang LSA menggunakan KL-divergensi antara vektor (bukan kesamaan cosinus).
Divergensi-KL adalah ukuran jarak untuk membandingkan distribusi sehingga mungkin lebih disukai jika representasi dokumen dalam hal beberapa distribusi (yang seringkali sebenarnya merupakan kasus - misalnya, dokumen direpresentasikan sebagai distribusi atas topik, seperti dalam LDA). Perhatikan juga bahwa di bawah representasi seperti itu, entri dalam vektor fitur akan berjumlah satu (karena Anda pada dasarnya memperlakukan dokumen sebagai distribusi topik atau konsep semantik).
Terima kasih. Apakah LDA mengharuskan Anda untuk mengetahui topik di muka? Dalam kasus kami, kami tidak tahu topik apa yang dimiliki masing-masing Dokumen dan kami akan menggunakan ukuran kesamaan untuk melakukan pengelompokan (EM-G-Means, atau GAAC)
@ Joel: Tidak, LDA tidak berasumsi bahwa Anda mengetahui topik untuk setiap dokumen sebelumnya. BTW, hanya untuk memperjelas, LDA mewakili setiap dokumen sebagai campuran topik, bukan hanya dengan satu topik. Jadi setiap topik akan berkontribusi pada sebagian kecil dalam dokumen (dan pecahan individual akan berjumlah 1). Pada dasarnya, LDA mengasumsikan bahwa setiap kata dalam dokumen dihasilkan oleh beberapa topik.
ebony1
@ebony - terima kasih! Beresiko mengulang pertanyaan dan mengulangi diri saya sendiri, apakah LDA mengharuskan Anda untuk mengetahui jumlah topik rahasia?
Anda mungkin ingin mencoba layanan online ini untuk kesamaan dokumen cosinus http://www.scurtu.it/documentSimilarity.html
sumber