Secara khusus, saya sedang mencari referensi (makalah, buku) yang akan menunjukkan dan menjelaskan kutukan dimensi. Pertanyaan ini muncul setelah saya mulai membaca buku putih ini oleh Lafferty dan Wasserman. Dalam paragraf ketiga mereka menyebutkan persamaan "terkenal" yang menyiratkan bahwa tingkat konvergensi terbaik adalah ; kalau ada yang bisa menjelaskan itu (dan menjelaskannya), itu akan sangat membantu.
Juga, adakah yang bisa mengarahkan saya ke referensi yang menghasilkan persamaan "terkenal"?
Jawaban:
Menindaklanjuti richiemorrisroe, berikut adalah gambar yang relevan dari Elemen Pembelajaran Statistik , bab 2 (hal. 22-27):
Seperti yang dapat Anda lihat di panel kanan atas, ada lebih banyak tetangga 1 unit dalam 1 dimensi daripada tetangga 1 unit dalam 2 dimensi. 3 dimensi akan lebih buruk!
sumber
Ini tidak menjawab pertanyaan Anda secara langsung, tetapi David Donoho memiliki artikel yang bagus tentang Analisis Data Dimensi Tinggi: Kutukan dan Berkat Dimensiitas (slide terkait ada di sini ), di mana ia menyebutkan tiga kutukan:
sumber
Saya tahu bahwa saya terus merujuk padanya, tetapi ada penjelasan yang bagus tentang ini adalah Elemen Pembelajaran Statistik , bab 2 (hal 22-27). Mereka pada dasarnya mencatat bahwa dengan meningkatnya dimensi, jumlah data perlu meningkat (secara eksponensial) dengannya atau tidak akan ada cukup poin dalam ruang sampel yang lebih besar untuk analisis yang berguna untuk dilakukan.
Mereka menyebut sebuah makalah oleh Bellman (1961) sebagai sumber mereka, yang tampaknya merupakan bukunya Adaptive Control Processes, tersedia dari Amazon di sini
sumber
Mungkin dampak yang paling terkenal ditangkap oleh batas berikut (yang (secara tidak langsung) diilustrasikan dalam gambar di atas):
Dampak Dimensi pada Data dalam Gambar
sumber