Berapa distribusi jarak Euclidean antara dua variabel acak yang terdistribusi normal?

41

Asumsikan Anda diberikan dua objek yang lokasi pastinya tidak diketahui, tetapi didistribusikan sesuai dengan distribusi normal dengan parameter yang diketahui (misalnya aN(m,s) dan bN(v,t)) . Kita dapat mengasumsikan ini adalah normal bivariat, sehingga posisinya dijelaskan oleh distribusi di atas (x,y) koordinat (yaitu m dan v adalah vektor yang berisi koordinat yang diharapkan (x,y) untuk adan masing-masing). Kami juga akan menganggap objek independen.b

Apakah ada yang tahu jika distribusi jarak Euclidean kuadrat antara dua objek ini adalah distribusi parametrik yang dikenal? Atau bagaimana cara menurunkan PDF / CDF untuk fungsi ini secara analitik?

Nick
sumber
4
Anda harus mendapatkan kelipatan dari distribusi chi-kuadrat non-pusat asalkan keempat koordinat tidak berkorelasi. Kalau tidak, hasilnya terlihat jauh lebih rumit.
whuber
@whuber detail / petunjuk yang dapat Anda berikan tentang bagaimana parameter dari distribusi chi-kuadrat non-pusat yang dihasilkan berhubungan dengan objek-objek a, b akan fantastis
Nick
4
@Klik beberapa paragraf pertama artikel Wikipedia memberikan detailnya. Dengan melihat fungsi karakteristik Anda dapat menetapkan bahwa hasil yang serupa tidak tersedia ketika tidak semua variansinya sama atau ada beberapa korelasi.
whuber
@Nick, hanya untuk memperjelas, baik dan b adalah vektor acak dengan nilai dalam R 2 ? abR2
mpiktas
1
@ Nick, jika dan b secara bersama-sama normal, maka perbedaan adalah sebuah - b adalah normal juga. Maka masalah Anda adalah menemukan distribusi vektor normal acak. Googling saya menemukan tautan ini . Makalah ini menjelaskan masalah yang jauh lebih kompleks yang khususnya bertepatan dengan masalah Anda. Ini memberi harapan bahwa ada jawaban yang pasti untuk pertanyaan Anda. Referensi mungkin memberi Anda ide lebih lanjut ke mana harus mencari. abab
mpiktas

Jawaban:

24

Jawaban untuk pertanyaan ini dapat ditemukan dalam buku Bentuk kuadrat dalam variabel acak oleh Mathai dan Provost (1992, Marcel Dekker, Inc.).

Seperti yang dikomentari oleh komentar, Anda perlu menemukan distribusi mana z = a - b mengikuti distribusi normal bivariat dengan mean μ dan matriks kovarian ari . Ini adalah bentuk kuadrat dalam variabel acak bivariat z .Q=z12+z22z=abμΣz

Secara singkat, satu hasil umum yang bagus untuk kasus berdimensi mana z ~ N p ( μ , Σ ) dan Q = p Σ j = 1 z 2 j adalah bahwa fungsi pembangkit momen E ( e t Q ) = e t Σ p j = 1 b 2 j λ jpzNp(μ,Σ)

Q=j=1pzj2
di manaλ1,...,λpadalah nilai eigen dariΣdanbmerupakan fungsi linear dariμ. Lihat Teorema 3.2a.2 (halaman 42) dalam buku yang dikutip di atas (kita asumsikan di sini bahwaΣadalah non-tunggal). Representasi lain yang berguna adalah 3.1a.1 (halaman 29) Q=pΣj=1
E(etQ)=etj=1pbj2λj12tλjj=1p(12tλj)1/2
λ1,,λpΣbμΣ mana u 1 , , u p iid N ( 0 , 1 ) .
Q=j=1pλj(uj+bj)2
u1,,upN(0,1)

Seluruh Bab 4 dalam buku ini ditujukan untuk representasi dan perhitungan kepadatan dan fungsi distribusi, yang sama sekali tidak sepele. Saya hanya akrab dengan buku ini, tetapi kesan saya adalah bahwa semua representasi umum adalah dalam hal ekspansi seri tak terbatas.

λ1,λ2>0b1,b2R

abab

NRH
sumber
1
Terima kasih atas rujukannya, saya menemukan buku itu dan perlahan-lahan mencoba untuk menerobosnya
Nick
λj=σ2hal=2bj2λjμj2
bjμj2
7

μd=μ1-μ2Σd=Σ1+Σ2 Σd=JΣ12JTΣ12=[Σ1Σ2]J=[+saya,-saya]

Kedua, cari distribusi panjang vektor perbedaan, atau jarak radial dari titik asal, yang didistribusikan Hoyt :

Jari-jari di sekitar rata-rata sebenarnya dalam variabel acak normal berkorelasi bivariat dengan varians yang tidak sama, ditulis ulang dalam koordinat polar (radius dan sudut), mengikuti distribusi Hoyt. Pdf dan cdf didefinisikan dalam bentuk tertutup, pencarian akar numerik digunakan untuk menemukan cdf ^ −1. Mengurangi distribusi Rayleigh jika korelasinya 0 dan variansinya sama.

Distribusi yang lebih umum muncul jika Anda mengizinkan perbedaan yang bias (asal bergeser), dari Ballistipedia : Distribusi koordinat xy dan kesalahan radial yang dihasilkan

Felipe G. Nievinski
sumber
2
+1, tapi saya pikir ada baiknya untuk menunjukkan bahwa pertanyaan tersebut berkaitan dengan apa yang disebut oleh figur Anda sebagai "Kasus umum".
Amoeba berkata Reinstate Monica
1

Mengapa tidak mengujinya?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Plot 1 Plot 2 Plot 3 Plot 4

Brandon Bertelsen
sumber
2
komentar whubers terhadap pertanyaan awal sudah menyatakan seperti apa jadinya jika variansnya sama dan variabelnya tidak berkorelasi. Mungkin memberi contoh dimana ini bukan masalahnya akan lebih mencerahkan.
Andy W
Bisakah Anda memberikan contoh seperti itu?
Brandon Bertelsen
yang perlu Anda lakukan adalah menghasilkan nilai x dan y yang berkorelasi atau memiliki varian yang berbeda. Perbedaan yang berbeda dapat dilakukan dengan benar dalam kode sebagaimana adanya. Anda bisa menghasilkan nilai dari matriks kovarians yang ditentukan menggunakan mvrnorm dari paket MASS. Juga saya tidak yakin apa fungsi "dokter gigi" dalam kode di atas, apakah mungkin "kepadatan".
Andy W
1
Yang sedang dikatakan itu mungkin sama mencerahkan untuk bekerja melalui matematika untuk melihat mengapa ini terjadi (dan bagaimana memanipulasi varians / kovarian akan mengubah distribusi). Tidak sepenuhnya jelas bagi saya mengapa ini terjadi hanya dengan melihat fungsi karakteristik yang disebutkan oleh whuber. Sepertinya pemahaman sederhana tentang aturan untuk menambah, mengurangi, dan mengalikan variabel acak akan membantu Anda memahami mengapa itu terjadi.
Andy W