Saya menggunakan means clustering untuk mengelompokkan suara speaker. Ketika saya membandingkan ucapan dengan data speaker yang dikelompokkan, saya mendapatkan distorsi rata-rata (jarak Euclidean). Jarak ini bisa dalam kisaran [ 0 , ∞ ] . Saya ingin mengonversi jarak ini ke skor kesamaan [ 0 , 1 ] . Tolong bimbing saya tentang bagaimana saya bisa mencapai ini.
clustering
k-means
distance
euclidean
Muhammad
sumber
sumber
Anda juga dapat menggunakan: manaadalah fungsi jarak yang Anda inginkan.1edist
dist
sumber
Kedengarannya seperti Anda menginginkan sesuatu yang mirip dengan cosinus similarity, yang dengan sendirinya skor kesamaan dalam interval satuan. Faktanya, ada hubungan langsung antara jarak Euclidean dan persamaan cosinus!
Perhatikan itu
Sedangkan cosinus similarity adalah manaθadalah sudut antaraxdanx′.
Kapan kami memiliki | | x - x ′ | | 2 = 2 ( 1 - f ( x , x ′ ) ) dan f ( x , x ′ ) = x T x ′ ,||x||=||x′||=1,
begitu
Dari perspektif komputasi, mungkin lebih efisien untuk hanya menghitung cosinus, daripada jarak Euclidean dan kemudian melakukan transformasi.
sumber
How about a Gaussian kernel ?
The distance∥x−x′∥ is used in the exponent. The kernel value is in the range [0,1] . There is one tuning parameter σ . Basically if σ is high, K(x,x′) will be close to 1 for any x,x′ . If σ is low, a slight distance from x to x′ will lead to K(x,x′) being close to 0.
sumber
If you are using a distance metric that is naturally between 0 and 1, like Hellinger distance. Then you can use 1 - distance to obtain similarity.
sumber