Kepadatan distribusi normal dengan meningkatnya dimensi

15

Pertanyaan yang ingin saya tanyakan adalah: bagaimana proporsi sampel dalam 1 SD dari rata-rata distribusi normal bervariasi seiring dengan meningkatnya jumlah varian?

(Hampir) semua orang tahu bahwa dalam distribusi normal 1 dimensi, 68% sampel dapat ditemukan dalam 1 standar deviasi rata-rata. Bagaimana dengan dalam dimensi 2, 3, 4, ...? Saya tahu itu berkurang ... tetapi seberapa banyak (tepatnya)? Akan berguna untuk memiliki tabel yang menunjukkan angka untuk 1, 2, 3 ... 10 dimensi, serta 1, 2, 3 ... 10 SD. Adakah yang bisa menunjuk ke meja seperti itu?

Konteks yang lebih sedikit - Saya memiliki sensor yang menyediakan data hingga 128 saluran. Setiap saluran tunduk pada kebisingan listrik (independen). Ketika saya merasakan objek kalibrasi, saya dapat rata-rata jumlah pengukuran yang cukup dan mendapatkan nilai rata-rata di 128 saluran, bersama dengan 128 penyimpangan standar individu.

TETAPI ... ketika datang ke bacaan instan individu, data tidak merespon sebanyak 128 bacaan individu seperti halnya bacaan tunggal dari (hingga) 128-dimensonal vektor kuantitas. Tentu saja ini adalah cara terbaik untuk memperlakukan beberapa bacaan kritis yang kita ambil (biasanya 4-6 dari 128).

Saya ingin merasakan variasi "normal" dan apa yang "outlier" dalam ruang vektor ini. Saya yakin saya telah melihat meja seperti yang saya jelaskan yang akan berlaku untuk situasi seperti ini - adakah yang bisa menunjuk ke satu?

omatai
sumber
Tolong - bisakah saya memiliki jawaban empiris saja - Saya tidak mengerti sebagian besar notasi matematika.
omatai

Jawaban:

19

Mari kita ambil : setiap X i adalah normal N ( 0 , 1 ) dan X iX=(X1,,Xd)N(0,I)XiN(0,1)Xi adalah independen - saya kira itulah yang Anda maksudkan dengan dimensi yang lebih tinggi.

Anda akan mengatakan bahwa berada dalam 1 sd dari mean ketika | | X | | < 1 (jarak antara X dan nilai rata-rata lebih rendah dari 1). Sekarang | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ) jadi ini terjadi dengan probabilitas P ( ξ < 1 ) di mana ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Anda dapat menemukan ini di tabel chi square yang baik ...

Berikut ini beberapa nilai:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

Dan untuk 2 sd:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Anda bisa mendapatkan nilai-nilai ini dalam R dengan commads seperti pchisq(1,df=1:10), pchisq(4,df=1:10), dll

Post Scriptum Seperti ditunjukkan kardinal dalam komentar, seseorang dapat memperkirakan perilaku asimptotik dari probabilitas ini. CDF dari variabel adalah F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d)

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

s

P(s,y)=eyk=sykk!,
which is the tail of the CDF of the Poisson distribution.

Now this sum is dominated by its first term (many thanks to cardinal): P(s,y)yss!ey for big s. We can apply this when d is even:

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
for big even d, the penultimate equivalence using Stirling formula. From this formula we see that the asymptotic decay is very fast as d increase.
Elvis
sumber
Welcome to our site, Elvis! Nice answer. (+1)
whuber
1
(+1) Good answer. Here are a couple suggestions for your consideration: (1) It might help to make explicit what ξ is for clarity's sake, (2) briefly give an intuitive argument for the choice you've made for the meaning of "one standard deviation" in this context and why it is even well-defined in the first place, and (3) add a statement regarding the growth of this quantity as a function of d. (The OP asks for only "empirical" answers, but other readers might appreciate a small mathematical addendum.)
cardinal
Thank you for your comments. I didn’t think this answer would receive much attention! It is true that this is a nice form of the curse of dimensionality... @cardinal concerning (3) I don’t know any asymptotic equivalent of the incomplete gamma function when the first parameters goes to infinity, the second being fixed, this is not easy! A rough majoration could be done, I may write that later.
Elvis
2
Regarding (3), to avoid a computation, you can employ the following argument: Let d be even and such that d=2k. Note that Zi=X2i12+X2i2 is an Exp(1/2) random variable. So X2=i=1kZi. But, then X2 is just the time until the kth renewal of a Poisson process with rate 1/2. So P(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal
1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal