Identik makna, bahwa itu akan menghasilkan hasil yang identik untuk kesamaan peringkat antara vektor u dan satu set vektor V .
Saya memiliki model ruang vektor yang memiliki ukuran jarak (jarak euclidean, kesamaan cosinus) dan teknik normalisasi (tidak ada, l1, l2) sebagai parameter. Dari pemahaman saya, hasil dari pengaturan [cosinus, tidak ada] harus identik atau setidaknya benar-benar sangat mirip dengan [euclidean, l2], tetapi tidak.
Sebenarnya ada peluang bagus sistemnya masih bermasalah - atau apakah saya memiliki kesalahan kritis tentang vektor?
sunting: Saya lupa menyebutkan bahwa vektor didasarkan pada jumlah kata dari dokumen dalam corpus. Diberikan dokumen permintaan (yang saya juga mentransformasikannya dalam vektor jumlah kata), saya ingin mencari dokumen dari corpus saya yang paling mirip dengannya.
Hanya menghitung jarak euclidean mereka adalah ukuran lurus ke depan, tetapi dalam jenis tugas yang saya kerjakan, kesamaan cosinus sering lebih disukai sebagai indikator kesamaan, karena vektor yang hanya berbeda panjangnya masih dianggap sama. Dokumen dengan jarak terkecil / kesamaan cosinus dianggap paling mirip.
Jawaban:
Untuk -normalisasi vektor , kita memiliki Euclidean kuadrat jarak sebanding dengan jarak cosinus , Yaitu, bahkan jika Anda menormalkan data dan algoritme Anda tidak sama dengan penskalaan jarak, Anda masih akan mengharapkan perbedaan karena kuadrat.ℓ2 x,y
sumber
Kesamaan cosinus standar didefinisikan sebagai berikut dalam ruang Euclidian, dengan asumsi vektor kolom dan : Ini mengurangi ke produk dalam standar jika vektor Anda dinormalisasi ke norma satuan (dalam l2). Dalam penambangan teks normalisasi semacam ini tidak pernah terdengar, tetapi saya tidak akan menganggap itu sebagai standar.u v
sumber