Jika saya memiliki hypercube 50 dimensi. Dan saya mendefinisikan batasnya dengan atau 0,95 < x j < 1 di mana x j adalah dimensi dari hypercube. Kemudian menghitung proporsi poin pada batas hypercube akan menjadi 0,995 . Apa artinya? Apakah itu berarti bahwa sisa ruang kosong? Jika 99 % titik berada pada batas maka titik di dalam kubus tidak boleh terdistribusi secara seragam?
machine-learning
math
Rohit Kumar Singh
sumber
sumber
Jawaban:
Berbicara tentang99 % poin dalam hypercube ' agak menyesatkan karena hypercube mengandung banyak poin. Mari kita bicara tentang volume.
Volume hypercube adalah produk dengan panjang sisinya. Untuk unit hypercube 50 dimensi kita mendapatkanTotal volume = 1 × 1 × ⋯ × 150 kali= 150= 1.
Sekarang mari kita mengecualikan batas-batas hypercube dan melihat ' interior ' (saya menempatkan ini dalam tanda kutip karena interior istilah matematika memiliki arti yang sangat berbeda). Kami hanya menyimpan poinx = ( x1, x2, ... , x50) yang memuaskan
0,05 < x1< 0,95 dan 0,05 < x2< 0,95 dan ... dan 0,05 < x50< 0,95.
Berapa volume 'interior' ini? Nah, 'interior' sekali lagi hypercube, dan panjang setiap sisi adalah0,9 (= 0,95 - 0,05 ... membantu membayangkan ini dalam dua dan tiga dimensi). Jadi volumenya adalah VolumeVolume interior = 0,9 × 0,9 × ⋯ × 0,950 kali= 0,950≈ 0,005.
Simpulkan bahwa volume 'batas' (didefinisikan sebagai unit hypercube tanpa 'interior ') adalah 1 - 0,950≈ 0,995.
Ini menunjukkan bahwa99,5 % dari volume hypercube 50-dimensi terkonsentrasi pada batasnya .
Tindak lanjut: ignatius mengajukan pertanyaan menarik tentang bagaimana ini terhubung dengan probabilitas. Berikut ini sebuah contoh.
Katakanlah Anda datang dengan model (pembelajaran mesin) yang memprediksi harga perumahan berdasarkan 50 parameter input. Semua 50 parameter input independen dan didistribusikan secara merata antara0 dan 1 .
Katakanlah bahwa model Anda berfungsi dengan baik jika tidak ada parameter input yang ekstrem: Selama setiap parameter input tetap antara0,05 dan 0,95 , model Anda memprediksi harga perumahan hampir sempurna. Tetapi jika satu atau lebih parameter input ekstrem (lebih kecil dari 0,05 atau lebih besar dari 0,95 ), prediksi model Anda benar-benar mengerikan.
Setiap parameter input yang diberikan ekstrem dengan probabilitas hanya10 % . Jadi jelas ini adalah model yang bagus, bukan? Tidak! Probabilitas bahwa setidaknya satu dari 50 parameter ekstrem adalah 1 - 0,950≈ 0,995.
Jadi dalam 99,5 % kasus, prediksi model Anda sangat buruk.
Rule of thumb: Dalam dimensi tinggi, pengamatan ekstrem adalah aturan dan bukan pengecualian.
sumber
Anda dapat melihat polanya dengan jelas bahkan dalam dimensi yang lebih rendah.
Dimensi 1. Ambil garis panjang 10 dan batas 1. Panjang batas adalah 2 dan rasio interior 8: 1: 4.
Dimensi ke-2. Ambil kuadrat sisi 10, dan batas 1 lagi. Batas wilayahnya adalah 36, rasio interior 64, 9:16.
Dimensi ke-3. Panjang dan batas yang sama. Volume batas adalah 488, interior 512, 61:64 - batas sudah menempati ruang hampir sebanyak interior.
Dimensi ke-4, sekarang batasnya adalah 5904 dan interior 4096 - batasnya sekarang lebih besar.
Bahkan untuk panjang batas yang lebih kecil dan lebih kecil, karena dimensi meningkatkan volume batas akan selalu menyalip interior.
sumber
Cara terbaik untuk "memahaminya" (meskipun IMHO mustahil bagi manusia) adalah membandingkan volume bola n-dimensi dan kubus n-dimensi. Dengan pertumbuhan n (dimensionalitas) semua volume bola "bocor" dan berkonsentrasi di sudut-sudut kubus. Ini adalah prinsip umum yang berguna untuk diingat dalam teori pengkodean dan aplikasinya.
Penjelasan buku teks terbaik dari itu adalah dalam buku Richard W. Hamming "Coding and Information Theory" (3.6 Geometric Approach, p 44).
The artikel pendek di Wikipedia akan memberikan ringkasan singkat yang sama jika Anda perlu diingat bahwa volume unit kubus n-dimensi selalu 1 ^ n.
Saya harap ini akan membantu.
sumber