Hasilkan bobot yang terdistribusi secara seragam yang menghasilkan kesatuan?

Adalah umum untuk menggunakan bobot dalam aplikasi seperti pemodelan campuran dan untuk menggabungkan fungsi dasar secara linier. Bobot harus sering mematuhi 0 dan . Saya ingin secara acak memilih vektor bobot dari distribusi seragam vektor tersebut. $w_i$ $w_i ≥$ $\sum_{i} w_i=1$ $\mathbf{w} = (w_1, w_2, …)$

Mungkin tergoda untuk menggunakan mana U (0, 1), namun seperti yang dibahas dalam komentar di bawah ini, distribusi tidak seragam. $w_i = \frac{\omega_i}{\sum_{j} \omega_j}$ $\omega_i \sim$ $\mathbf{w}$

Namun, mengingat kendala $\sum_{i} w_i=1$ , tampaknya dimensi yang mendasari masalah adalah $n-1$ , dan harus dimungkinkan untuk memilih $\mathbf{w}$ dengan memilih parameter $n-1$ sesuai dengan beberapa distribusi dan kemudian menghitung $\mathbf{w}$ dari parameter tersebut (karena setelah $n-1$ dari bobot ditentukan, bobot yang tersisa sepenuhnya ditentukan).

Masalahnya tampaknya mirip dengan masalah memilih titik bola (tapi, daripada memilih 3-vektor yang $ℓ_2$ norma adalah kesatuan, saya ingin memilih $n$ vektor yang $ℓ_1$ norma adalah kesatuan).

Terima kasih!

random-generation Chris
sumber

Metode Anda tidak menghasilkan vektor yang terdistribusi secara merata pada simpleks. Untuk melakukan apa yang Anda inginkan dengan benar, cara yang paling mudah adalah dengan menghasilkan iid variabel acak dan kemudian menormalkannya dengan jumlah mereka. Anda dapat mencoba melakukannya dengan menemukan beberapa metode lain untuk menggambar hanya varian secara langsung, tetapi saya ragu mengenai efisiensi tradeoff karena variates dapat dihasilkan dengan sangat efisien dari variates.

n

$n$

E x p (1)

$\mathrm{Exp}(1)$

n - 1

$n-1$

E x p (1)

$\mathrm{Exp}(1)$

U (0, 1)

$U(0,1)$

kardinal

Jawaban:

Pilih secara seragam (dengan cara seragam seragam dalam interval ). Urutkan koefisien sehingga . Set $\mathbf{x} \in [0,1]^{n-1}$ $n-1$ $[0,1]$ $0 \le x_1 \le \cdots \le x_{n-1}$

w = (x_{1}, x_{2} - x_{1}, x_{3} - x_{2}, \dots, x_{n - 1} - x_{n - 2}, 1 - x_{n - 1}) .

$\mathbf{w} = (x_1, x_2-x_1, x_3 - x_2, \ldots, x_{n-1} - x_{n-2}, 1 - x_{n-1}).$

Karena kita dapat memulihkan diurutkan dengan menggunakan jumlah parsial dari , pemetaan adalahke 1; khususnya, citranya adalah simpleks di . Karena (a) setiap swap dalam bentuk adalah transformasi linear, (b) rumus sebelumnya adalah linear, dan (c) transformasi linear mempertahankan keseragaman distribusi, keseragaman menyiratkan keseragaman pada simpleks . Khususnya, perhatikan bahwa marginal tidak harus independen. $x_i$ $w_i$ $\mathbf{x} \to \mathbf{w}$ $(n-1)!$ $n-1$ $\mathbb{R}^n$ $\mathbf{x}$ $\mathbf{w}$ $n-1$ $\mathbf{w}$

Plot titik 3D

Plot titik 3D ini menunjukkan hasil 2000 iterasi dari algoritma ini untuk . Titik-titik terbatas pada simpleks dan didistribusikan secara merata di atasnya. $n=3$

Karena waktu eksekusi algoritma ini adalah , maka tidak efisien untuk besar . Tapi ini menjawab pertanyaannya! Cara yang lebih baik (secara umum) untuk menghasilkan nilai-nilai yang terdistribusi secara merata pada -simplex adalah menggambar real seragam pada interval , menghitung $O(n \log(n)) \gg O(n)$ $n$ $n-1$ $n$ $(x_1, \ldots, x_n)$ $[0,1]$

y_{i} = - \log (x_{i})

$y_i = -\log(x_i)$

(yang membuat setiap positif dengan probabilitas , dari mana jumlah mereka hampir pasti bukan nol) dan ditetapkan $y_i$ $1$

w = (y_{1}, y_{2}, \dots, y_{n}) / (y_{1} + y_{2} + \dots + y_{n}) .

$\mathbf w = (y_1, y_2, \ldots, y_n) / (y_1 + y_2 + \cdots + y_n).$

Ini berfungsi karena setiap memiliki , yang menyiratkan memiliki distribusi Dirichlet - dan itu seragam. $y_i$ $\Gamma(1)$ $\mathbf w$ $(1,1,1)$

[Plot titik 3D 2]

whuber
sumber

@ Chris Jika dengan "Dir (1)" yang Anda maksud adalah distribusi Dirichlet dengan parameter

, maka jawabannya adalah ya.

(α_{1}, \dots, α_{n})

$(\alpha_1, \ldots, \alpha_n)$

(1, 1, \dots, 1)

$(1,1,\ldots,1)$

whuber

(+1) Satu komentar kecil: Intuisi sangat bagus. Perhatian dalam menafsirkan (a) mungkin perlu diambil, karena tampaknya "transformasi linear" pada bagian itu adalah acak . Namun, ini dengan mudah dikerjakan dengan mengorbankan formalitas tambahan dengan menggunakan pertukaran proses pembuatan dan properti invarian tertentu.

kardinal

Lebih eksplisit: Untuk distribusi dengan kepadatan

, kepadatan statistik urutan sampel iid berukuran

adalah

. Dalam kasus

f

$f$

n

$n$

n! f (x_{1}) \dots f (x_{n}) 1_{(x_{1} < x_{2} < \dots < x_{n})}

$n! f(x_1)\cdots f(x_n) 1_{(x_1 < x_2 < \cdots < x_n)}$

f = 1_{[0, 1]} (x)

$f = 1_{[0,1]}(x)$ , distribusi statistik pesanan seragam pada polytope. Diambil dari titik ini, transformasi yang tersisa bersifat deterministik dan hasilnya mengikuti.

kardinal

@ cardinal Itu poin yang menarik, tapi saya rasa itu tidak penting, walaupun Anda benar bahwa detail tambahan bisa membantu. Swap (sebenarnya refleksi, transformasi linear qua ) tidak acak: mereka sudah ditentukan sebelumnya. Efeknya,

diukir menjadi

I_{n - 1} = [0, 1]^{n - 1}

$I_{n-1}=[0,1]^{n-1}$

(n - 1)!

$(n-1)!$ daerah, yang satu dibedakan dari yang lain, dan ada ikatan afine ditentukan sebelumnya antara masing-masing daerah dan yang dibedakan. Dari mana, satu-satunya fakta tambahan yang kita butuhkan adalah bahwa distribusi seragam pada suatu wilayah seragam pada setiap subset terukurnya, yang merupakan hal sepele yang lengkap.

whuber

@whuber: Pernyataan menarik. Terima kasih telah berbagi! Saya selalu menghargai pemikiran mendalam Anda tentang hal-hal seperti itu. Mengenai komentar saya sebelumnya tentang "transformasi linear acak", poin saya adalah, setidaknya melalui

, transformasi yang digunakan tergantung pada titik sampel

. Cara lain untuk memikirkannya adalah ada fungsi tetap, yang telah ditentukan

sedemikian rupa sehingga

, tetapi saya tidak akan menyebut fungsi itu linear, meskipun linear pada himpunan bagian partisi itu

x

$\mathbf{x}$

ω

$\omega$

T : R^{n - 1} \to R^{n - 1}

$T: \mathbb{R}^{n-1} \to \mathbb{R}^{n-1}$

w = T (x)

$\mathbf{w} = T(\mathbf{x})$

(n - 1)

$(n-1)$ -kubus. :)

kardinal

    zz <- c(0, log(-log(runif(n-1))))
    ezz <- exp(zz)
    w <- ezz/sum(ezz)

Entri pertama dimasukkan ke nol untuk identifikasi; Anda akan melihat bahwa dilakukan dalam model logistik multinomial. Tentu saja, dalam model multinomial, Anda juga akan memiliki kovariat di bawah eksponen, bukan hanya zzs acak . Distribusi zzs adalah distribusi nilai ekstrem; Anda perlu ini untuk memastikan bahwa bobot yang dihasilkan adalah iid awalnya saya menempatkan semua di rnormsana, tetapi kemudian punya firasat bahwa ini tidak akan berhasil.

Tugas
sumber

Itu tidak berhasil. Apakah Anda mencoba melihat histogram?

kardinal

Jawaban Anda sekarang hampir benar. Jika Anda menghasilkan

iid

dan membaginya dengan jumlah, maka Anda akan mendapatkan distribusi yang benar. Lihat distribusi Dirichlet untuk lebih jelasnya, meskipun tidak membahas hal ini secara eksplisit .

n

$n$

E x p (1)

$\mathrm{Exp}(1)$

kardinal

Mengingat terminologi yang Anda gunakan, Anda terdengar sedikit bingung.

kardinal

Sebenarnya, tautan Wiki memang membahas hal ini (cukup) secara eksplisit. Lihat paragraf kedua di bawah tajuk Dukungan .

kardinal

Karakterisasi ini terlalu membatasi dan terlalu umum. Terlalu umum dalam distribusi

dihasilkan harus "seragam" pada simpleks

dalam

. Hal ini terlalu ketat dalam pertanyaan tersebut diuraikan umumnya cukup untuk memungkinkan bahwa

ada beberapa fungsi dari

distribusi -variate, yang pada gilirannya mungkin , tetapi tidak harus, terdiri dari

independen (dan mungkin iid) variabel.

w

$\mathbf{w}$

n - 1

$n-1$

R^{n}

$\mathbb{R}^n$

w

$\mathbf{w}$

n - 1

$n-1$

n - 1

$n-1$

whuber

Solusinya jelas. Kode MathLab berikut memberikan jawaban untuk 3 bobot.

function [  ] = TESTGEN( )
SZ  = 1000;
V  = zeros (1, 3);
VS = zeros (SZ, 3);
for NIT=1:SZ   
   V(1) = rand (1,1);     % uniform generation on the range 0..1
   V(2) = rand (1,1) * (1 - V(1));
   V(3) = 1 - V(1) - V(2);  
   PERM = randperm (3);    % random permutation of values 1,2,3
   for NID=1:3
         VS (NIT, NID) = V (PERM(NID));
    end
end 
figure;
scatter3 (VS(:, 1), VS(:,2), VS (:,3));
end

pengguna96990
sumber

Marginal Anda tidak memiliki distribusi yang benar. Menilai dari artikel Wikipedia tentang distribusi Dirichlet (bagian pembuatan nomor acak, yang memiliki algoritma yang Anda kodekan), Anda harus menggunakan distribusi beta (1,2) untuk V (1), bukan seragam [0,1] distribusi.

soakley

Tampaknya kepadatan meningkat di sudut-sudut segitiga miring ini. Meskipun demikian, ini memberikan tampilan geometris yang bagus dari masalahnya.

DWin