Apa artinya ketika kita mengatakan sebagian besar poin dalam hypercube berada di perbatasan?

13

Jika saya memiliki hypercube 50 dimensi. Dan saya mendefinisikan batasnya dengan atau 0,95 < x j < 1 di mana x j adalah dimensi dari hypercube. Kemudian menghitung proporsi poin pada batas hypercube akan menjadi 0,995 . Apa artinya? Apakah itu berarti bahwa sisa ruang kosong? Jika 99 % titik berada pada batas maka titik di dalam kubus tidak boleh terdistribusi secara seragam?0<xj<0.050.95<xj<1xj0.99599%

Rohit Kumar Singh
sumber
3
Tidak, itu berarti pinggiran lebih luas, dan efeknya sepadan dengan dimensi. Ini agak berlawanan dengan intuisi. Fenomena ini memiliki konsekuensi pada distribusi jarak antara pasangan acak dari node yang menjadi relevan ketika Anda ingin mengelompokkan atau menghitung tetangga terdekat di ruang dimensi tinggi.
Emre
Hitung berapa proporsi poin pada segmen garis yang dekat dengan batasnya. Lalu menunjuk sebuah kotak. Lalu menunjuk sebuah kubus. Apa yang bisa Anda katakan tentang mereka?
user253751

Jawaban:

28

Berbicara tentang 99% poin dalam hypercube ' agak menyesatkan karena hypercube mengandung banyak poin. Mari kita bicara tentang volume.

Volume hypercube adalah produk dengan panjang sisinya. Untuk unit hypercube 50 dimensi kita mendapatkan

Total volume=1×1××150 times=150=1.

Sekarang mari kita mengecualikan batas-batas hypercube dan melihat ' interior ' (saya menempatkan ini dalam tanda kutip karena interior istilah matematika memiliki arti yang sangat berbeda). Kami hanya menyimpan poin x=(x1,x2,,x50) yang memuaskan

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
Berapa volume 'interior' ini? Nah, 'interior' sekali lagi hypercube, dan panjang setiap sisi adalah0.9 (=0.950.05 ... membantu membayangkan ini dalam dua dan tiga dimensi). Jadi volumenya adalah Volume
Interior volume=0.9×0.9××0.950 times=0.9500.005.
Simpulkan bahwa volume 'batas' (didefinisikan sebagai unit hypercube tanpa 'interior ') adalah 10.9500.995.

Ini menunjukkan bahwa 99.5% dari volume hypercube 50-dimensi terkonsentrasi pada batasnya .


Tindak lanjut: ignatius mengajukan pertanyaan menarik tentang bagaimana ini terhubung dengan probabilitas. Berikut ini sebuah contoh.

Katakanlah Anda datang dengan model (pembelajaran mesin) yang memprediksi harga perumahan berdasarkan 50 parameter input. Semua 50 parameter input independen dan didistribusikan secara merata antara 0 dan 1 .

Katakanlah bahwa model Anda berfungsi dengan baik jika tidak ada parameter input yang ekstrem: Selama setiap parameter input tetap antara 0.05 dan 0.95 , model Anda memprediksi harga perumahan hampir sempurna. Tetapi jika satu atau lebih parameter input ekstrem (lebih kecil dari 0.05 atau lebih besar dari 0.95 ), prediksi model Anda benar-benar mengerikan.

Setiap parameter input yang diberikan ekstrem dengan probabilitas hanya 10% . Jadi jelas ini adalah model yang bagus, bukan? Tidak! Probabilitas bahwa setidaknya satu dari 50 parameter ekstrem adalah 10.9500.995. Jadi dalam 99.5% kasus, prediksi model Anda sangat buruk.

Rule of thumb: Dalam dimensi tinggi, pengamatan ekstrem adalah aturan dan bukan pengecualian.

Elias Strehle
sumber
7
Layak menggunakan kutipan OP "Apakah itu berarti bahwa sisa ruang kosong?" dan menjawab: Tidak, itu berarti sisa ruangan relatif kecil . . . Atau serupa dengan kata-kata Anda sendiri. . .
Neil Slater
2
Penjelasan yang sangat bagus dari istilah "kutukan dimensi"
ignatius
Bertanya-tanya apakah yang berikut ini benar: mengambil contoh ini, jika satu set fitur didistribusikan secara merata di sepanjang [0,1] di masing-masing dari 50 dimensi, (99,5% -0,5%) = 99% dari volume (fitur hypercube space) hanya menangkap nilai 10% dari setiap fitur
ignatius
"Setiap parameter input yang diberikan ekstrem dengan probabilitas hanya 5%." Saya pikir probabilitas ini adalah 10%.
Rodvi
@ Radvi: Tentu saja Anda benar, terima kasih! Memperbaikinya.
Elias Strehle
9

Anda dapat melihat polanya dengan jelas bahkan dalam dimensi yang lebih rendah.

Dimensi 1. Ambil garis panjang 10 dan batas 1. Panjang batas adalah 2 dan rasio interior 8: 1: 4.

Dimensi ke-2. Ambil kuadrat sisi 10, dan batas 1 lagi. Batas wilayahnya adalah 36, rasio interior 64, 9:16.

Dimensi ke-3. Panjang dan batas yang sama. Volume batas adalah 488, interior 512, 61:64 - batas sudah menempati ruang hampir sebanyak interior.

Dimensi ke-4, sekarang batasnya adalah 5904 dan interior 4096 - batasnya sekarang lebih besar.

Bahkan untuk panjang batas yang lebih kecil dan lebih kecil, karena dimensi meningkatkan volume batas akan selalu menyalip interior.

HP Williams
sumber
0

Cara terbaik untuk "memahaminya" (meskipun IMHO mustahil bagi manusia) adalah membandingkan volume bola n-dimensi dan kubus n-dimensi. Dengan pertumbuhan n (dimensionalitas) semua volume bola "bocor" dan berkonsentrasi di sudut-sudut kubus. Ini adalah prinsip umum yang berguna untuk diingat dalam teori pengkodean dan aplikasinya.

Penjelasan buku teks terbaik dari itu adalah dalam buku Richard W. Hamming "Coding and Information Theory" (3.6 Geometric Approach, p 44).

The artikel pendek di Wikipedia akan memberikan ringkasan singkat yang sama jika Anda perlu diingat bahwa volume unit kubus n-dimensi selalu 1 ^ n.

Saya harap ini akan membantu.

Alex Fedotov
sumber