Misalkan menjadi fungsi yang kita sebut sebagai fungsi kesamaan . Contoh fungsi kesamaan adalah jarak cosinus, norma , jarak Hamming, kesamaan Jaccard, dll.l 2
Pertimbangkan vektor biner dengan panjang : .k → v ∈ ( { 0 , 1 } k ) n
Tujuan kami adalah untuk mengelompokkan vektor yang serupa. Secara lebih formal, kami ingin menghitung grafik kesamaan di mana simpul adalah vektor dan ujungnya mewakili vektor yang serupa ( ).
dan adalah angka yang sangat besar, dan membandingkan dua vektor panjang adalah mahal, kita tidak bisa melakukan semua operasi brute-force . Kami ingin menghitung grafik kesamaan dengan operasi yang jauh lebih sedikit.k O ( n 2 )
Apakah ini mungkin? Jika tidak, bisakah kita menghitung perkiraan grafik yang berisi semua tepi dalam grafik kesamaan ditambah mungkin paling banyak tepi lainnya?
Jawaban:
Mungkin ada cara untuk menanduk teorema Johnson-Lindenstrauss ke dalam masalah ini. Pada dasarnya, JL menyatakan bahwa Anda dapat memproyeksikan data dimensi tinggi ke dalam ruang dimensi yang lebih rendah sedemikian rupa sehingga jarak berpasangan hampir dipertahankan. Secara lebih praktis, Achlioptas memiliki sebuah makalah yang disebut proyeksi acak ramah-Database: Johnson-Lindenstrauss dengan koin biner yang melakukan proyeksi ini secara acak, yang bekerja dengan cukup baik dalam praktiknya.
Sekarang, tentu saja, fungsi kesamaan Anda tidak persis sama dengan sesuatu yang cocok dengan teorema JL. Namun, sepertinya fungsi jarak dan mungkin beberapa teori di atas dapat membantu.
sumber