Pada tahun 1999, Beyer et al. bertanya, Kapan "Tetangga Terdekat" bermakna?
Adakah cara yang lebih baik untuk menganalisis dan memvisualisasikan efek jarak rata pada pencarian NN sejak 1999?
Apakah set data yang diberikan memberikan jawaban yang berarti untuk masalah 1-NN? Masalah 10-NN? Masalah 100-NN?
Bagaimana Anda para pakar mendekati pertanyaan ini hari ini?
Suntingan Senin 24 Jan:
Bagaimana dengan "distance whiteout" sebagai nama yang lebih pendek untuk "distance flatness dengan meningkatnya dimensi"?
Cara mudah untuk melihat "jarak whiteout" adalah menjalankan 2-NN, dan plot jarak ke tetangga terdekat dan tetangga kedua terdekat. Plot di bawah ini menunjukkan dist 1 dan dist 2 untuk berbagai nclusters dan dimensi, oleh Monte Carlo. Contoh ini menunjukkan kontras jarak yang cukup baik untuk perbedaan absolut yang diskalakan | dist 2 - dist 1 | (Perbedaan relatif | dist 2 / dist 1 | → 1 sebagai dimensi → ∞, jadi menjadi tidak berguna.)
Apakah kesalahan absolut atau kesalahan relatif harus digunakan dalam konteks yang diberikan tentu saja tergantung pada noise "nyata" yang ada: sulit.
Saran: selalu jalankan 2-NN; 2 tetangga berguna saat mereka dekat, dan berguna saat tidak.
Jawaban:
Saya tidak punya jawaban penuh untuk pertanyaan ini, tetapi saya bisa memberikan jawaban parsial pada beberapa aspek analitis. Peringatan: Saya telah mengerjakan masalah lain sejak makalah pertama di bawah ini, jadi sangat mungkin ada hal-hal baik di luar sana yang tidak saya sadari.
Pertama saya pikir perlu dicatat bahwa meskipun judul makalah mereka "Kapan` tetangga terdekat 'bermakna ", Beyer et al sebenarnya menjawab pertanyaan yang berbeda, yaitu kapan NN tidak bermakna. Kami membuktikan kebalikan dari teorema mereka, di bawah beberapa asumsi ringan tambahan pada ukuran sampel, di When Is 'Nearest Neighbor' Berarti: Teorema dan Implikasi Konversi. Journal of Complexity, 25 (4), Agustus 2009, hlm 385-397.dan menunjukkan bahwa ada situasi ketika (secara teori) konsentrasi jarak tidak akan muncul (kami memberikan contoh, tetapi pada dasarnya jumlah fitur non-noise perlu tumbuh dengan dimensi sehingga tentu saja mereka jarang muncul dalam praktik). Referensi 1 dan 7 yang dikutip dalam makalah kami memberikan beberapa contoh cara di mana konsentrasi jarak dapat dikurangi dalam praktik.
Sebuah makalah oleh atasan saya, Ata Kaban, melihat apakah masalah konsentrasi jarak ini tetap ada meskipun menerapkan teknik pengurangan dimensi dalam Kesadaran Konsentrasi Jarak Jauh pada Teknik Pengurangan Data Tertentu. Pengenalan Pola. Vol. 44, Edisi 2, Februari 2011, hal.265-277. . Ada beberapa diskusi yang bagus di sana juga.
sumber
Anda mungkin juga tertarik dengan analisis komponen lingkungan oleh Goldberger et al.
Di sini, transformasi linier dipelajari untuk memaksimalkan titik-titik yang diklasifikasikan dengan benar yang diharapkan melalui pemilihan lingkungan terdekat stokastik.
Sebagai efek samping, jumlah (yang diharapkan) dari tetangga ditentukan dari data.
sumber