Saya mengerti apa itu "kutukan dimensi", dan saya telah melakukan beberapa masalah optimasi dimensi tinggi dan mengetahui tantangan dari kemungkinan eksponensial.
Namun, saya ragu apakah "kutukan dimensi" ada di sebagian besar data dunia nyata (yah mari kita kesampingkan gambar atau video sejenak, saya berpikir tentang data seperti data demografi pelanggan dan perilaku pembelian).
Kami dapat mengumpulkan data dengan ribuan fitur tetapi kemungkinannya kecil bahkan fitur tersebut dapat sepenuhnya menjangkau ruang dengan ribuan dimensi. Inilah sebabnya mengapa teknik reduksi dimensi sangat populer.
Dengan kata lain, sangat mungkin data tidak mengandung tingkat informasi eksponensial, yaitu, banyak fitur sangat berkorelasi dan banyak fitur memenuhi 80-20 aturan (banyak instance memiliki nilai yang sama).
Dalam kasus seperti itu, saya pikir metode seperti KNN akan tetap bekerja dengan cukup baik. (Dalam kebanyakan buku "kutukan dimensi" mengatakan dimensi> 10 bisa bermasalah. Dalam demo mereka menggunakan distribusi seragam di semua dimensi, di mana entropi sangat tinggi. Saya ragu di dunia nyata ini akan pernah terjadi.)
Pengalaman pribadi saya dengan data nyata adalah bahwa "kutukan dimensi" tidak terlalu memengaruhi metode templat (seperti KNN) dan dalam kebanyakan kasus, dimensi ~ 100 masih akan berfungsi.
Apakah ini benar untuk orang lain? (Saya bekerja dengan data nyata di berbagai industri selama 5 tahun, tidak pernah mengamati "semua pasangan jarak memiliki nilai yang sama" seperti yang dijelaskan dalam buku ini.)
Jawaban:
Makalah ini (1) membahas berkah non-seragam sebagai tandingan kutukan dimensi. Gagasan utamanya adalah bahwa data tidak tersebar secara seragam di dalam ruang fitur, sehingga orang dapat memperoleh daya tarik dengan mengidentifikasi cara-cara di mana data disusun.
(1) Pedro Domingos, "Beberapa Hal Berguna untuk Diketahui tentang Pembelajaran Mesin"
sumber
Kutukan dimensi dalam pembelajaran mesin lebih sering menjadi masalah meledaknya ruang kosong di antara beberapa titik data yang Anda miliki. Data berjenis rendah dapat membuatnya lebih buruk. Berikut adalah contoh pengaturan dengan 10.000 sampel di mana saya mencoba melakukan kNN dengan 1 tetangga.
Anda tidak suka distribusi sepenuhnya seragam, jadi saya membuat ini manifold 2D dengan dimensi lebih kecil (dikurangi oleh
scale
) ditaburkan di sekitar bidang 2D dari dua koordinat pertama. Ketika itu terjadi, salah satu dimensi yang lebih kecil bersifat prediktif (labelnya adalah 1 ketika dimensi itu positif).Presisi turun dengan cepat dengan meningkatnya dimensi.
Tentu saja, ketelitian = 0,5 adalah tebakan acak. Dengan permukaan keputusan, yang lebih rumit daripada pesawat, itu akan menjadi lebih buruk.
Ini seperti bola kNN terlalu jarang untuk membantu dalam mencari hyperplane yang halus. Dengan dimensi yang lebih tinggi, mereka merasa semakin kesepian.
Di sisi lain, metode seperti SVM memiliki pandangan global dan jauh lebih baik.
sumber
Pertimbangkan misalnya deret waktu (dan gambar, dan audio). Bacaan sensor (Internet of Things) sangat umum.
Kutukan dimensi jauh lebih umum daripada yang Anda pikirkan. Ada redundansi besar di sana, tetapi juga banyak kebisingan.
Masalahnya adalah bahwa banyak orang hanya menghindari tantangan data nyata ini, dan hanya menggunakan set data UCI cherryupicked yang sama berulang-ulang.
sumber
Ada artikel yang bagus, "Pemodelan Statistik: dua budaya" , oleh Breiman. Dia menjelaskan dua kelompok ilmuwan yang menangani data dan bagaimana masing-masing dari mereka memandang "dimensionalitas". Jawaban untuk pertanyaan Anda adalah "itu tergantung" di kelompok mana Anda berada. Periksa kertasnya.
sumber