Distribusi produk skalar dari dua vektor satuan acak dalam dimensi

27

Jika dan adalah dua vektor satuan acak independen di (didistribusikan secara seragam pada unit sphere), apa distribusi produk skalar mereka (produk titik) ?y R D xyxyRDxy

Saya kira ketika menumbuhkan distribusi dengan cepat (?) Menjadi normal dengan rata-rata nol dan penurunan varians dalam dimensi yang lebih tinggi tetapi apakah ada rumus eksplisit untuk \ sigma ^ 2 (D) ?D σ 2 (D)

limDσ2(D)0,
σ2(D)

Memperbarui

Saya menjalankan beberapa simulasi cepat. Pertama, menghasilkan 10.000 pasang vektor satuan acak untuk D=1000 mudah untuk melihat bahwa distribusi produk titik mereka adalah Gaussian sempurna (sebenarnya sudah cukup Gaussian untuk D=100 ), lihat subplot di sebelah kiri. Kedua, untuk setiap D mulai dari 1 hingga 10.000 (dengan langkah-langkah yang meningkat) saya menghasilkan 1000 pasangan dan menghitung variansnya. Log-log plot ditampilkan di sebelah kanan, dan jelas bahwa formula sangat baik didekati dengan 1/D . Perhatikan bahwa untuk D=1 dan D=2 rumus ini bahkan memberikan hasil yang tepat (tapi saya tidak yakin apa yang terjadi kemudian).

dot produk antara vektor satuan acak

amuba kata Reinstate Monica
sumber
@KarlOskar: terima kasih, tautan ini sangat relevan, dan bahkan membuat pertanyaan saya hampir duplikat, tetapi tidak cukup. Jadi ada rumus eksplisit untuk yang merupakan fungsi distribusi kumulatif dari produk dot. Seseorang dapat mengambil turunan untuk mendapatkan PDF dan kemudian mempelajari batas . Namun, rumus ini diberikan dalam hal fungsi beta dan fungsi beta tidak lengkap, sehingga perhitungannya cenderung tidak menyenangkan. D P{(x,y)>ϵ}D
Amoeba berkata Reinstate Monica
@KarlOskar: dari distribusi seragam pada lingkup unit . Untuk menghasilkan vektor acak dari distribusi ini, seseorang dapat menghasilkan vektor acak dari Gaussian dengan varian unit, dan kemudian menormalkannya. RD
Amuba kata Reinstate Monica

Jawaban:

30

Karena ( seperti yang terkenal ) distribusi seragam pada unit lingkup diperoleh dengan menormalisasi -variate distribusi normal dan titik produk vektor normalisasi adalah koefisien korelasi mereka, jawaban atas tiga pertanyaan adalah: D tSD1Dt

  1. ( ( D - 1 ) / 2 , ( D - 1 ) / 2 )u=(t+1)/2 memiliki distribusi Beta .((D1)/2,(D1)/2)

  2. Varian dari sama dengan (seperti yang dispesifikasikan dalam pertanyaan).1 / Dt1/D

  3. Distribusi standar mendekati normalitas pada tingkatO ( 1tO(1D).


metode

The tepat distribusi produk titik vektor satuan mudah diperoleh geometris, karena ini adalah komponen dari vektor kedua arah pertama. Karena vektor kedua tidak tergantung pada yang pertama dan terdistribusi secara seragam pada unit sphere, komponennya dalam arah pertama terdistribusi sama seperti koordinat bola tersebut. (Perhatikan bahwa distribusi vektor pertama tidak masalah.)

Menemukan Kepadatan

Membiarkan koordinat itu sebagai yang terakhir, kerapatan pada karena itu sebanding dengan luas permukaan yang terletak pada ketinggian antara dan pada unit sphere. Proporsi itu terjadi dalam sabuk dengan ketinggian dan jari-jari yang pada dasarnya merupakan kerucut kerucut yang dibangun dari jari-jari dengan ketinggian , dan kemiringan . Dari mana probabilitas sebanding dengant t + d t d t t[1,1]tt+dtdtS D - 2 1t2,SD2dt1/1t2,dt1/1t2

(1t2)D21t2dt=(1t2)(D3)/2dt.

Membiarkan mencakup . Mengganti yang menjadi sebelumnya memberikan elemen probabilitas hingga konstanta normalisasi:t = 2 u - 1u=(t+1)/2[0,1]t=2u1

fD(u)du(1(2u1)2)(D3)/2d(2u1)=2D2(uu2)(D3)/2du.

Langsung bahwa memiliki distribusi Beta , karena (menurut definisi) kepadatannya juga sebanding dengan( ( D - 1 ) / 2 , ( D - 1 ) / 2 )u=(t+1)/2((D1)/2,(D1)/2)

u(D1)/21(1u)(D1)/21=(uu2)(D3)/2fD(u).

Menentukan Perilaku Membatasi

Informasi tentang perilaku pembatasan mengikuti dengan mudah dari ini dengan menggunakan teknik dasar: dapat diintegrasikan untuk memperoleh konstanta proporsionalitas ; dapat diintegrasikan (menggunakan properti dari fungsi Beta, misalnya) untuk mendapatkan momen, menunjukkan bahwa variansnya adalah dan menyusut ke (dimana, menurut Teorema Chebyshev, probabilitas menjadi terkonsentrasi di dekat ); dan distribusi pembatas kemudian ditemukan dengan mempertimbangkan nilai-nilai kepadatan distribusi standar, sebanding dengan untuk nilai-nilai kecil dariΓ ( nfDtkfD(t)1/D0t=0fD(t/Γ(n2)πΓ(D12)tkfD(t)1/D0t=0tfD(t/D),t :

log(fD(t/D))=C(D)+D32log(1t2D)=C(D)(1/2+32D)t2+O(t4D)C12t2

di mana mewakili (log) konstanta integrasi. Jelas tingkat di mana ini mendekati normalitas (di mana kepadatan log sama dengan ) adalah- 1CO(112t2O(1D).

Angka

Plot ini menunjukkan kerapatan produk titik untuk , sebagai standar untuk varian unit, dan kerapatan pembatasnya. Nilai meningkat dengan (dari biru hingga merah, emas, dan kemudian hijau untuk kerapatan normal standar). Kepadatan untuk tidak dapat dibedakan dari kepadatan normal pada resolusi ini.0 D D = 1000D=4,6,100DD=1000

whuber
sumber
4
(+1) Terima kasih banyak, @whuber, ini jawaban yang bagus! Terima kasih khusus untuk menyebut kata "frustum". Kebetulan saya telah menerima jawaban lain hanya beberapa menit sebelum Anda memposting jawaban Anda, dan saya tidak ingin menolak menerimanya sekarang; semoga kamu mengerti. Sayang sekali bahwa tidak mungkin menerima keduanya! Omong-omong, perhatikan bukti ekspresi sangat sederhana untuk varian dari jawaban itu: orang dapat melihatnya langsung tanpa mengacaukan fungsi beta! Varian dari produk titik sama dengan varian dari setiap koordinat bola (seperti yang Anda tulis), dan jumlah semua dari mereka harus , QEDD 11/DD1
amoeba mengatakan Reinstate Monica
1
Itu pengamatan yang bagus tentang varians.
whuber
2
@amoeba, kegiatan baru-baru ini membawa perhatian saya ke sini lagi juga, dan saya sangat menghargai Anda menerima jawaban saya, yang ini jauh lebih penuh. Saya tidak akan keberatan sama sekali jika Anda berubah.
ekvall
1
@ Student001: ini adalah komentar yang adil dan murah hati. Saya mengganti jawaban yang diterima. Saya juga telah menemukan satu Q dan satu A dari Anda untuk mengimbangi untuk
menebusnya
1
@ ah Distribusi adalah dari . Itu membuatnya menjadi distribusi Beta yang telah diskalakan dan digeser dari interval ke interval . 2 U - 1 [ 0 , 1 ] [ - 1 , 1 ]t2U1[0,1][1,1]
whuber
11

Mari kita cari distribusinya lalu variansnya mengikuti hasil standar. Pertimbangkan produk vektor dan tuliskan pada bentuk kosinusnya, yaitu perhatikan bahwa kita memiliki mana adalah sudut antara dan . Pada langkah terakhir saya telah menggunakannya untuk setiap kejadian danSekarang perhatikan istilah . Jelas bahwa karena dipilih secara seragam sehubungan dengan permukaan bola, tidak masalah apaθ x y A B E P ( A B ) : = E [ E [ χ

P(xyt)=P(|x||y|cosθt)=P(cosθt)=EP(cosθty),
θxyAB P ( cos θ t y ) x y x y y y = [ 1 , 0 , 0 , ] . P ( x y t ) = P ( x 1t ) . x 1
EP(AB):=E[E[χAB]]=EχA=P(A).
P(cosθty)xysebenarnya, hanya sudut antara dan penting. Jadi, istilah di dalam ekspektasi sebenarnya konstan sebagai fungsi dari dan kita dapat menganggap bahwaKemudian kita mendapatkantetapi karena adalah koordinat pertama dari vektor Gaussian yang dinormalisasi dalam kami berpendapat bahwa adalah Gaussian dengan varian dengan menggunakan hasil asimptotik dari makalah ini .xyyy=[1,0,0,].
P(xyt)=P(x1t).
x1 x y1 / nRn,xy1/n

Untuk hasil yang jelas dari varians, gunakan fakta bahwa produk titik adalah nol rata-rata oleh independensi dan, seperti yang ditunjukkan di atas, didistribusikan seperti koordinat pertama . Dengan hasil ini, menemukan sama dengan menemukan . Sekarang, perhatikan bahwa per konstruksi dan jadi kita dapat menulis mana persamaan terakhir mengikuti dari mana koordinat didistribusikan secara identik. Menyatukan semuanya, kami telah menemukan bahwaVar ( x y ) E x 2 1 x x = 1 1 = E x x = E n i = 1 x 2 i = n i = 1 E x 2 i = n E x 2 1 , x Var ( x y ) = E x 2 1xVar(xy)Ex12xx=1

1=Exx=Ei=1nxi2=i=1nExi2=nEx12,
xVar(xy)=Ex12=1/n
ekvall
sumber
Terima kasih, tetapi saya bingung: apa sebenarnya "hasil yang diinginkan" dan bagaimana hasilnya dari persamaan terakhir? Distribusi probabilitas akhir harus bergantung pada . D
Amoeba berkata Reinstate Monica
Sebenarnya bagaimana hasil mengikuti dari persamaan terakhir Anda adalah persis apa yang dibahas di thread math.SE yang Anda temukan. Ini melibatkan distribusi beta dll, dan perilaku membatasi (bagi saya) jauh dari jelas. Saya kira harus ada cara yang lebih sederhana langsung untuk melihat bahwa . σ2(D)1/D
Amoeba berkata Reinstate Monica
Itu memang tergantung pada dimensi sejak , di mana adalah vektor Gaussian yang dihasilkan. Saya akan memperbarui jawabannya hari ini atau besok. x1=z1|z|1z
ekvall
Wow, hebat, tautan terakhir Anda memberikan batas ekspresi yang melibatkan fungsi beta terbalik (yang saya takut untuk hitung) dalam persamaan ketiga di halaman 1. Jadi untuk menyelesaikan alasannya: jika bola memiliki jari-jari , maka (asimptotik) didistribusikan sebagai . Berarti bahwa untuk lingkup radius Unit varians adalah yang kali lebih kecil, yaitu . Namun, saya masih memiliki kekhawatiran: Saya memeriksa dari 1 hingga 4, dan tampaknya memberikan varian yang tepat , meskipun distribusi untuk D = 1 atau D = 2 sangat jauh dari normal. Harus ada alasan yang lebih dalam di balik itu. Dx1N(0,1)D1/DD1/D
amoeba mengatakan Reinstate Monica
@amoeba Ya, diperbarui dengan bukti itu.
ekvall
2

Untuk menjawab bagian pertama dari pertanyaan Anda, tunjukkan . Tentukan Produk dari elemen dari dan dilambangkan di sini sebagai akan didistribusikan sesuai dengan distribusi gabungan dari dan . lalu sejak , Z=X,Y=XiYi

fZi(zi)=fZ1,,ZD(z1,,zD)dzi
ithXYZiXiYi
fZi(zi)=fXi,Yi(x,zix)1|x|dx
Z=Zi
fZ(z)=fZ1,,ZD(z1,,zd)δ(zzi)dz1dzd

Untuk bagian kedua, saya berpikir bahwa jika Anda ingin mengatakan sesuatu yang menarik tentang perilaku asimtotik dari Anda harus setidaknya mengasumsikan independensi dan , dan kemudian menerapkan CLT.σXY

Misalnya, jika Anda mau berasumsi bahwa iid dengan dan Anda dapat katakan bahwa dan .{Z1,,ZD}E[Zi]=μV[Zi]=σ2σ2(D)=σ2DlimDσ2(D)=0

tom
sumber
Terima kasih, tetapi saya bingung tentang bagian kedua. dan tentu saja seharusnya independen, saya akan menambahkan ini ke pertanyaan. Anda mengatakan bahwa , dan itu terdengar masuk akal, tetapi apa perilaku asimptotik dari ? Saya pikir ekspresi saya mencari seharusnya hanya tergantung pada . Ngomong-ngomong dalam 2D jika saya tidak salah, saya bertanya-tanya apakah ini tetap benar dalam dimensi yang lebih tinggi ...Y σ 2 ( D ) = V sebuah r ( z i ) / D V sebuah r ( z i ) D V sebuah r ( z i ) = 1 / 2XYσ2(D)=Var(zi)/DVar(zi)DVar(zi)=1/2
amoeba mengatakan Reinstate Monica
Apakah benar-benar mungkin bagi untuk mandiri mengingat persyaratan bahwa dan adalah satuan panjang? X YziXY
ekvall
@ Tom: By the way, saya adalah salah: di 2D adalah 1, itu adalah yaitu sebesar 1/2. Saya telah memperbarui pertanyaan saya dengan beberapa hasil simulasi. Sepertinya formula yang benar adalah . V a r ( z ) 1 / DVar(zi)Var(z)1/D
Amoeba berkata Reinstate Monica