Apakah ada yang menggunakan metrik atau L .5 untuk pengelompokan, bukan L 2 ?
Aggarwal et al.,
Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi
mengatakan (pada 2001) itu
secara konsisten lebih disukai daripada metrik jarak Euclidean L 2 untuk aplikasi penambangan data dimensi tinggi
dan mengklaim bahwa atau L .1 dapat lebih baik.
Alasan untuk menggunakan atau L .5 dapat berupa teori atau eksperimental, misalnya sensitivitas terhadap kertas pencilan / Kaban, atau program yang dijalankan pada data nyata atau sintetik (harap direproduksi). Contoh atau gambar akan membantu intuisi awam saya.
Pertanyaan ini merupakan kelanjutan dari jawaban Bob Durrant untuk When-is-terdekat-tetangga-bermakna-hari ini . Seperti yang dia katakan, pilihan akan tergantung data dan aplikasi; Meskipun demikian, laporan pengalaman nyata akan bermanfaat.
Catatan ditambahkan Selasa 7 Juni:
Saya menemukan "analisis data statistik berdasarkan norma-L1 dan metode terkait", Dodge ed., 2002, 454p, isbn 3764369205 - puluhan makalah konferensi.
Adakah yang bisa menganalisis konsentrasi jarak untuk fitur eksponensial iid? Salah satu alasan untuk eksponensial adalah bahwa ; lain (non-ahli) adalah distribusi max-entropy ≥ 0; yang ketiga adalah bahwa beberapa set data nyata, khususnya SIFT, terlihat kira-kira eksponensial.
Jawaban:
Kuncinya di sini adalah memahami "kutukan dimensi" referensi kertas. Dari wikipedia: ketika jumlah dimensi sangat besar,
Sebagai hasilnya, itu mulai menjadi sulit untuk berpikir tentang poin mana yang dekat dengan poin lainnya, karena mereka semua kurang lebih sama berjauhan. Ini adalah masalah di kertas pertama yang Anda tautkan.
Masalah dengan p tinggi adalah bahwa ia menekankan nilai yang lebih besar - lima kuadrat dan empat kuadrat terpisah sembilan unit, tetapi satu kuadrat dan dua kuadrat hanya terpisah tiga unit. Jadi dimensi yang lebih besar (benda-benda di sudut) mendominasi segalanya dan Anda kehilangan kontras. Jadi ini inflasi jarak jauh adalah apa yang ingin Anda hindari. Dengan p fraksional, penekanannya adalah pada perbedaan dalam dimensi yang lebih kecil - dimensi yang sebenarnya memiliki nilai menengah - yang memberi Anda lebih banyak kontras.
sumber
Ada kertas yang menggunakan metrik Lp dengan p antara 1 dan 5 yang mungkin ingin Anda lihat:
Amorim, RC dan Mirkin, B., Minkowski Metric, Pembobotan Fitur dan Anomali Cluster Inisialisasi dalam K-Means Clustering, Pattern Recognition, vol. 45 (3), hlm. 1061-1075, 2012
Unduh, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_in_K-Means_clustering / file / d912f508115a040b45.pdf
sumber
sumber