Saya membaca bahwa 'jarak Euclidean bukan jarak yang baik dalam dimensi tinggi'. Saya kira pernyataan ini ada hubungannya dengan kutukan dimensi, tetapi apa sebenarnya? Selain itu, apa itu 'dimensi tinggi'? Saya telah menerapkan pengelompokan hierarkis menggunakan jarak Euclidean dengan 100 fitur. Hingga berapa banyak fitur yang aman untuk menggunakan metrik ini?
241
Jawaban:
Ringkasan hebat hasil non-intuitif dalam dimensi yang lebih tinggi berasal dari " Beberapa Hal Berguna untuk Diketahui tentang Pembelajaran Mesin " oleh Pedro Domingos di University of Washington:
Artikel ini juga penuh dengan banyak mutiara kebijaksanaan tambahan untuk pembelajaran mesin.
Aplikasi lain, di luar pembelajaran mesin, adalah pencarian tetangga terdekat: diberikan pengamatan yang menarik, temukan tetangga terdekatnya (dalam arti bahwa ini adalah titik dengan jarak terkecil dari titik permintaan). Tetapi dalam dimensi tinggi, sebuah fenomena aneh muncul: rasio antara titik terdekat dan terjauh mendekati 1, yaitu titik-titik tersebut pada dasarnya menjadi saling berjauhan satu sama lain. Fenomena ini dapat diamati untuk berbagai metrik jarak, tetapi lebih jelas untuk metrik Euclidean daripada, katakanlah, metrik jarak Manhattan. Premis pencarian tetangga terdekat adalah bahwa poin "lebih dekat" lebih relevan daripada poin "lebih jauh", tetapi jika semua titik pada dasarnya seragam satu sama lain, perbedaannya tidak berarti.
Dari Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Tentang Perilaku Metrik Jarak yang Mengejutkan di Ruang Dimensi Tinggi ":
Para penulis makalah "Perilaku Mengejutkan" kemudian mengusulkan penggunaan norma dengan . Mereka menghasilkan beberapa hasil yang menunjukkan bahwa "norma fraksional" ini menunjukkan sifat meningkatkan kontras antara titik terjauh dan terdekat. Ini mungkin berguna dalam beberapa konteks, namun ada peringatan: "norma fraksional" ini bukan metrik jarak yang tepat karena melanggar ketimpangan segitiga. Jika ketimpangan segitiga adalah kualitas penting untuk dimiliki dalam penelitian Anda, maka metrik fraksional tidak akan sangat berguna. k < 1L.k k < 1
sumber
Gagasan tentang jarak Euclidean, yang bekerja dengan baik di dunia dua dimensi dan tiga dimensi yang dipelajari oleh Euclid, memiliki beberapa sifat dalam dimensi yang lebih tinggi yang bertentangan dengan intuisi geometris kami (mungkin hanya saya ) yang juga merupakan ekstrapolasi dari dua dan tiga ukuran.
sumber
Ini adalah masalah signal-to-noise . Jarak Euclidean, karena istilah kuadrat, sangat sensitif terhadap kebisingan; tetapi bahkan jarak Manhattan dan "fraksional" (non-metrik) menderita.
Saya menemukan studi dalam artikel ini sangat mencerahkan:
Itu meninjau kembali pengamatan yang dibuat dalam misalnya pada Perilaku Mengejutkan Metrik Jarak di Ruang Dimensi Tinggi oleh Aggarwal, Hinneburg dan Keim yang disebutkan oleh @Pat. Tetapi juga menunjukkan bagaimana eksperimen sintetik menyesatkan dan bahwa pada kenyataannya data berdimensi tinggi dapat menjadi lebih mudah . Jika Anda memiliki banyak sinyal (redundan), dan dimensi baru menambah sedikit noise.
Jadi pada akhirnya, itu masih tergantung pada data Anda. Jika Anda memiliki banyak atribut yang tidak berguna, jarak Euclidean akan menjadi tidak berguna. Jika Anda bisa dengan mudah menanamkan data Anda dalam ruang data dimensi rendah, maka jarak Euclidean juga harus bekerja di ruang dimensi penuh. Khususnya untuk data yang jarang , seperti vektor TF dari teks, ini tampaknya merupakan kasus bahwa data memiliki dimensi yang jauh lebih rendah daripada yang disarankan oleh model ruang vektor.
Beberapa orang percaya bahwa jarak cosinus lebih baik daripada Euclidean pada data dimensi tinggi. Saya tidak berpikir begitu: jarak cosinus dan jarak Euclidean terkait erat ; jadi kita harus mengharapkan mereka menderita masalah yang sama. Namun, data tekstual di mana cosine populer biasanya jarang , dan cosinus lebih cepat pada data yang jarang - jadi untuk data jarang, ada alasan bagus untuk menggunakan cosinus; dan karena data jarang, dimensi intrinsik jauh lebih kecil daripada dimensi ruang vektor.
Lihat juga balasan ini yang saya berikan pada pertanyaan sebelumnya: https://stats.stackexchange.com/a/29647/7828
sumber
Tempat terbaik untuk memulai mungkin membaca Tentang Perilaku Mengejutkan Metrik Jarak dalam Ruang Dimensi Tinggi oleh Aggarwal, Hinneburg dan Keim. Ada tautan yang saat ini berfungsi di sini (pdf) , tetapi harus sangat dapat digunakan oleh Google jika rusak. Singkatnya, ketika jumlah dimensi bertambah, jarak euclidean relatif antara satu titik dalam satu set dan tetangga terdekatnya, dan antara titik itu dan tetangga terjauhnya, berubah dalam beberapa cara yang tidak jelas. Apakah ini akan mempengaruhi hasil Anda atau tidak, sangat tergantung pada apa yang ingin Anda capai dan seperti apa data Anda.
sumber
Jarak Euclidean sangat jarang jarak yang baik untuk dipilih dalam Pembelajaran Mesin dan ini menjadi lebih jelas dalam dimensi yang lebih tinggi. Ini karena sebagian besar waktu dalam Pembelajaran Mesin Anda tidak berurusan dengan Ruang Metrik Euclidean, tetapi Ruang Metrik Probabilistik dan oleh karena itu Anda harus menggunakan fungsi jarak teoretis probabilistik dan informasi, misalnya yang berbasis entropi.
Manusia menyukai ruang euclidean karena mudah dikonseptualisasikan, lebih jauh secara matematis karena sifat linearitas yang berarti kita dapat menerapkan aljabar linier. Jika kita mendefinisikan jarak dari segi, katakanlah Kullback-Leibler Divergence, maka lebih sulit untuk memvisualisasikan dan bekerja dengan matematis.
sumber
Sebagai analogi, bayangkan sebuah lingkaran yang berpusat pada titik asal. Poin didistribusikan secara merata. Misalkan titik yang dipilih secara acak adalah pada (x1, x2). Jarak Euclidean dari titik asal adalah ((x1) ^ 2 + (x2) ^ 2) ^ 0,5
Sekarang, bayangkan poin terdistribusi secara merata di sebuah bola. Titik yang sama (x1, x2) sekarang kemungkinan akan menjadi (x1, x2, x3). Karena, dalam distribusi genap, hanya beberapa titik yang memiliki salah satu koordinat sebagai nol, kita harus mengasumsikan bahwa [x3! = 0] untuk titik distribusi merata yang dipilih secara acak. Dengan demikian, titik acak kami kemungkinan besar (x1, x2, x3) dan tidak (x1, x2, 0).
Efeknya adalah: titik acak apa pun sekarang berada pada jarak ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0,5 dari asal bola 3-D. Jarak ini lebih besar dari itu untuk titik acak di dekat titik asal lingkaran 2-D. Masalah ini semakin memburuk di dimensi yang lebih tinggi, itulah sebabnya kami memilih metrik selain dimensi Euclidean untuk bekerja dengan dimensi yang lebih tinggi.
EDIT: Ada pepatah yang saya ingat sekarang: "Sebagian besar massa oranye dimensi lebih tinggi ada di kulit, bukan bubur kertas", yang berarti bahwa dalam dimensi yang lebih tinggi titik-titik yang didistribusikan secara merata lebih "dekat" (jarak Euclidean) batas dari asal.
Catatan: Jarak Euclidean tidak terlalu buruk untuk masalah dunia nyata karena 'berkah ketidak-seragam', yang pada dasarnya menyatakan bahwa untuk data nyata, data Anda mungkin TIDAK akan didistribusikan secara merata di ruang dimensi yang lebih tinggi, tetapi akan menempati subset kecil dari ruang. Ini masuk akal secara intuitif: jika Anda mengukur 100 jumlah tentang manusia seperti tinggi, berat, dll, distribusi yang merata di atas ruang dimensi tidak masuk akal, misalnya seseorang dengan (tinggi = 65 inci, berat = 150 lbs, avg_calorie_intake = 4000) yang tidak mungkin di dunia nyata.
sumber
Sisi lain dari pertanyaan ini adalah ini:
Dimensi yang sangat tinggi dalam masalah (pembelajaran mesin / statistik) adalah hasil dari fitur yang terlalu terbatas.
Artinya dimensi BUKAN independen (atau tidak berkorelasi), tetapi metrik Euclidean berasumsi (setidaknya) tidak berkorelasi dan karenanya tidak dapat menghasilkan hasil terbaik
Jadi untuk menjawab pertanyaan Anda, jumlah "dimensi tinggi" terkait dengan berapa banyak fitur yang saling tergantung atau berlebihan atau terlalu terbatas
Selain itu: Ini adalah teorema oleh Csiszar (et al.) Bahwa metrik Euclidean adalah kandidat "alami" untuk inferensi ketika fitur berupa bentuk tertentu
sumber
Makalah ini dapat membantu Anda juga "Peningkatan pengukuran kesamaan sqrt-cosinus" kunjungi https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Makalah ini menjelaskan mengapa jarak Euclidean bukan metrik yang baik dalam dimensi tinggi data dan apa pengganti terbaik untuk jarak Euclidean dalam data dimensi tinggi. Jarak Euclidean adalah norma L2 dan dengan mengurangi nilai k dalam norma Lk kita dapat mengatasi masalah jarak dalam data dimensi tinggi. Anda dapat menemukan referensi dalam makalah ini juga.
sumber