Hasilkan suara yang seragam dari bola norma-p ( )

Saya mencoba untuk menulis sebuah fungsi yang menghasilkan suara yang terdistribusi secara seragam yang berasal dari bola p-norma dimensi: $n$

| | x | |_{p} \leq r

$\begin{equation} ||x||_p \leq r \end{equation}$

Saya menemukan solusi yang mungkin untuk lingkaran ( ) ( http://mathworld.wolfram.com/DiskPointPicking.html ), namun saya mengalami kesulitan untuk memperluas ini untuk nilai berbeda . $p = 2$ $p$

Saya telah mencoba melakukannya dengan hanya menggambar sampel acak dari distribusi yang seragam, dan menggambar ulang ketika tidak memenuhi batasan yang diberikan. Namun selain itu menjadi solusi yang jelek itu juga menjadi tidak layak secara komputasi untuk dimensi tinggi.

simulation noise Taeke de Haan
sumber

Jawabannya dapat ditemukan di sini untuk bola dengan n dimensi menggunakan jarak Euclidean (p = 2) math.stackexchange.com/questions/87230/... Saya masih tidak yakin bagaimana menggunakan ini untuk norma p yang berbeda, dapatkah saya cukup mengubah jarak Euclidean yang digunakan dalam hubungan yang berbeda untuk jarak?

Taeke de Haan

Ada banyak makalah, tetapi sebagian besar berada di belakang paywall: link.springer.com/article/10.1007/s00184-011-0360-x atau lihat google.com/…

kjetil b halvorsen

"Seragam" sehubungan dengan metrik volume apa? Lagi pula, jika Anda menggunakan bola- , mengapa volume Euclidean menarik?

p

$p$

whuber

@whuber Jujur saya tidak yakin karena ini tidak jelas dinyatakan dalam penugasan, tapi saya harapkan dalam p-norma karena metrik lain tampaknya sewenang-wenang dalam kasus ini.

Taeke de Haan

Masalahnya berasal dari tugas Machine Learning; "Masalahnya adalah masalah klasifikasi dua kelas dalam dimensi 204. Set pelatihan berlabel kecil memiliki ukuran 50 sampel per kelas. Data yang tidak berlabel menyediakan 20.000 sampel tambahan. Namun, sampel ini telah mengalami semacam korupsi. hanya informasi tambahan yang kami miliki tentang korupsi ini, adalah bahwa itu adalah aditif seragam kebisingan dan bahwa kebisingan berasal dari bola norma p tetap, , di mana dan jari-jari tidak diketahui. " Saya perlu mendapatkan tingkat kesalahan terendah pada data yang tidak berlabel.

| | x | |_{p} \leq r

$||x||_p \leq r$

p

$p$

r

$r$

Taeke de Haan

Jawaban:

Saya menemukan solusi lengkap dalam sebuah makalah seperti yang disarankan oleh kjetil b halvorsen ( https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=758215 ). Sejujurnya saya kesulitan memahami matematika di baliknya, tetapi algoritma akhirnya cukup sederhana. jika kita memiliki dimensi, jari-jari dan norma dari: $n$ $r$ $p$

1) menghasilkan skalar nyata acak independen , di mana adalah distribusi Gaussian Umum (dengan kekuatan berbeda di eksponen bukan hanya ) $n$ $\varepsilon_i = \bar{G}(1/p, p)$ $\bar{G}(\mu, \sigma^2)$ $e^{−|x|^p}$ $p=2$

2) membangun vektor komponen , di mana adalah tanda acak independen $x$ $s_i * \varepsilon_i$ $s_i$

3) Hasilkan , di mana adalah variabel acak yang terdistribusi secara merata dalam interval [0, 1]. $z = w^{1/n}$ $w$

4) mengembalikan $y = r z \frac{x}{||x||_p}$

Taeke de Haan
sumber

Untuk kelengkapan, dapatkah Anda memberi tahu apa yang dalam jawaban Anda?

G

$G$

Stéphane Laurent

Telah diperbarui

Taeke de Haan

G adalah distribusi Gaussian umum (dengan kekuatan yang berbeda dalam eksponen alih-alih hanya ). Ini akan membuat distribusi untuk vektor , terdiri dari beberapa variabel independen umum gaussian didistribusikan , yang merupakan produk dari PDF tunggal, tergantung pada p-norma.

e^{- | x |^{p}}

$e^{-|x|^p}$

p = 2

$p=2$

x

$\mathbf{x}$

x_{i}

$x_i$

f (x) \propto e^{- | x |_{p}^{p}}

$f(\mathbf{x}) \propto e^{-\vert \mathbf{x} \vert_p^p}$

Sextus Empiricus

@ MartijnWeterings Terima kasih banyak, ini telah diperbarui.

Taeke de Haan

Terima kasih. Untuk info, ada sampler distribusi ini dalam paket R pgnorm .

Stéphane Laurent

Menggunakan variabel multivariat terdistribusi secara homogen

Taeke menyediakan tautan ke artikel yang teksnya di bawah ini menjadi lebih intuitif dengan menjelaskan secara khusus kasus 2-norma dan 1-norma.

2 norma $\Vert x \Vert_2 \leq r$

arah sampel

Anda dapat menggunakan hasil ini http://mathworld.wolfram.com/HyperspherePointPicking.html

Variabel Gaussian terdistribusi multivariat (dengan matriks kovarian identitas) hanya bergantung pada jarak, atau jumlah kuadrat. $X$

f (X_{1}, X_{2}, . . ., X_{n}) = \prod_{1 \leq i \leq n} \frac{1}{\sqrt{2 π}} e^{\frac{1}{2} x_{i}^{2}} = \frac{1}{\sqrt{2 π}} e^{\frac{1}{2} \sum_{1 \leq i \leq n} x_{i}^{2}}

$f(X_1,X_2,...,X_n) = \prod_{1\leq i \leq n} \frac{1}{\sqrt{2\pi}}e^{\frac{1}{2}x_i^2} = \frac{1}{\sqrt{2\pi}}e^{\frac{1}{2}\sum_{1 \leq i \leq n} x_i^2}$

Dengan demikian terdistribusi secara merata pada permukaan n-dimensional-hypersphere. $\frac{X}{\Vert X \Vert_2}$

jarak sampel

Untuk menyelesaikan Anda hanya perlu mengambil sampel jarak, untuk mengubah distribusi homogen pada bola menjadi distribusi homogen dalam bola. (yang kurang lebih mirip dengan contoh tertaut Anda untuk memilih titik disk)

Jika Anda hanya akan sampel sebagai distribusi seragam maka Anda akan memiliki kepadatan relatif lebih tinggi dekat pusat (timbangan Volume sebagai sehingga sebagian kecil poin akan berakhir di volume , yang lebih padat dekat pusat dan tidak berarti distribusi seragam) $r$ $r^n$ $r$ $r^n$

Jika sebaliknya Anda menggunakan akar ke- dari variabel yang diambil sampel dari distribusi yang seragam, maka Anda mendapatkan distribusi yang merata. $n$

1 norma $\Vert x \Vert_1 \leq r$

arah

Dalam hal ini Anda mengambil sampel dari distribusi Laplace alih-alih distribusi Gaussian dan dibagi dengan 1-norma. The terdistribusi secara seragam pada bola 1-norma n-dimensi. $X$ $\frac{X}{\vert X \vert_1}$

Saya tidak punya bukti formal, hanya intuisi

^{(Karena pdf independen dari posisi, Anda akan mengharapkan untuk setiap area / volume yang sangat kecil dengan 1-norma yang sama memiliki probabilitas yang sama untuk dan ketika Anda menciutkannya ke permukaan unit, ) $f(x) dV$ $f(x) dA$}

tetapi pengujian dengan simulasi terlihat bagus.

library(rmutil)
x <- abs(rlaplace(20000))
y <- abs(rlaplace(20000))
z <- abs(rlaplace(20000))
rn <- abs(x)+abs(y)+abs(z)

xi <- (x/rn)
yi <- (y/rn)
zi <- (z/rn)
plot(sqrt(0.5)*(xi-yi),
     sqrt((0.5-0.5*(xi+yi))^2+zi^2),
     pc=21,bg=rgb(0,0,0,0.02), col=rgb(0,0,0,0),cex=1)

jarak

Jaraknya sama dengan kasus 2-norma (volume masih berskala ). $r^n$

p-norm $\Vert x \Vert_p \leq r$

Dalam hal ini, jika Anda ingin mengikuti prinsip yang sama, Anda perlu mengambil sampel dari distribusi dengan (saya berhipotesis). Ini adalah distribusi normal umum dan mungkin berhubungan dengan distribusi disebutkan oleh Taeke. $f(x) \propto e^{\vert x \vert^p}$ $G()$

Sextus Empiricus
sumber

Bisakah Anda menguraikan bagaimana Anda menyimpulkan unit vektor didistribusikan secara seragam? BTW, saya percaya Anda ingin mengambil akar th.

p

$p$

whuber

Terima kasih atas bantuan Anda, saya menemukan solusi lengkap di sini: ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=758215 ). Sejujurnya saya kesulitan memahami matematika di baliknya, tetapi algoritma akhirnya cukup sederhana. jika kita memiliki dimensi, jari-jari dan norma dari: 1) menghasilkan n skalar nyata acak independen E_i = G (1 / p, p) 2) membangun vektor x komponen s_i * E_i, di mana E_i adalah tanda acak independen 3) Hasilkan , di mana adalah variabel acak yang terdistribusi secara merata dalam interval [0, 1]. 4) mengembalikan

n

$n$

r

$r$

p

$p$

z = w^{1 / n}

$z = w^{1/n}$

w

$w$

y = r z \frac{x}{| | x | |_{p}}

$y = r z \frac{x}{||x||_p}$

Taeke de Haan

Hasilkan suara yang seragam dari bola norma-p ( )

Jawaban:

Menggunakan variabel multivariat terdistribusi secara homogen

2 norma∥x∥2≤r‖x‖2≤r\Vert x \Vert_2 \leq r

arah sampel

jarak sampel

1 norma∥x∥1≤r‖x‖1≤r\Vert x \Vert_1 \leq r

arah

jarak

p-norm∥x∥p≤r‖x‖p≤r\Vert x \Vert_p \leq r

2 norma $\Vert x \Vert_2 \leq r$

1 norma $\Vert x \Vert_1 \leq r$

p-norm $\Vert x \Vert_p \leq r$