Gagasan utama k-Nearest-Neighbor memperhitungkan titik terdekat dan memutuskan klasifikasi data berdasarkan suara terbanyak. Jika demikian, maka seharusnya tidak memiliki masalah dalam data dimensi yang lebih tinggi karena metode seperti hashing sensitif lokalitas dapat secara efisien menemukan tetangga terdekat.
Selain itu, pemilihan fitur dengan jaringan Bayesian dapat mengurangi dimensi data dan membuat pembelajaran lebih mudah.
Namun, makalah ulasan oleh John Lafferty dalam pembelajaran statistik menunjukkan bahwa pembelajaran non-parametrik dalam ruang fitur dimensi tinggi masih merupakan tantangan dan belum terpecahkan.
Apa yang salah?
Jawaban:
Masalah ini dikenal sebagai kutukan dimensi . Pada dasarnya, ketika Anda meningkatkan jumlah dimensi, , titik-titik di ruang umumnya cenderung menjadi jauh dari semua titik lainnya. Ini membuat partisi ruang (seperti yang diperlukan untuk klasifikasi atau pengelompokan) sangat sulit.d
Anda dapat melihatnya sendiri dengan sangat mudah. Saya menghasilkan titik d- dimensi acak dalam unit hypercube pada 20 nilai d yang dipilih secara merata dari 1..1000 . Untuk setiap nilai d, saya menghitung jarak dari titik pertama ke yang lainnya dan mengambil rata-rata jarak ini. Merencanakan ini, kita dapat melihat bahwa jarak rata-rata meningkat dengan dimensi meskipun ruang di mana kita menghasilkan titik di setiap dimensi tetap sama.50 d d 1..1000 d
Jarak rata-rata vs. dimensi
sumber
Bukan jawaban yang lengkap, tetapi halaman wikipedia yang Anda kutip menyatakan:
Kemungkinan terjadinya peningkatan ini di hadapan ruang fitur dimensi tinggi.
sumber