Pertanyaan yang ingin saya tanyakan adalah: bagaimana proporsi sampel dalam 1 SD dari rata-rata distribusi normal bervariasi seiring dengan meningkatnya jumlah varian?
(Hampir) semua orang tahu bahwa dalam distribusi normal 1 dimensi, 68% sampel dapat ditemukan dalam 1 standar deviasi rata-rata. Bagaimana dengan dalam dimensi 2, 3, 4, ...? Saya tahu itu berkurang ... tetapi seberapa banyak (tepatnya)? Akan berguna untuk memiliki tabel yang menunjukkan angka untuk 1, 2, 3 ... 10 dimensi, serta 1, 2, 3 ... 10 SD. Adakah yang bisa menunjuk ke meja seperti itu?
Konteks yang lebih sedikit - Saya memiliki sensor yang menyediakan data hingga 128 saluran. Setiap saluran tunduk pada kebisingan listrik (independen). Ketika saya merasakan objek kalibrasi, saya dapat rata-rata jumlah pengukuran yang cukup dan mendapatkan nilai rata-rata di 128 saluran, bersama dengan 128 penyimpangan standar individu.
TETAPI ... ketika datang ke bacaan instan individu, data tidak merespon sebanyak 128 bacaan individu seperti halnya bacaan tunggal dari (hingga) 128-dimensonal vektor kuantitas. Tentu saja ini adalah cara terbaik untuk memperlakukan beberapa bacaan kritis yang kita ambil (biasanya 4-6 dari 128).
Saya ingin merasakan variasi "normal" dan apa yang "outlier" dalam ruang vektor ini. Saya yakin saya telah melihat meja seperti yang saya jelaskan yang akan berlaku untuk situasi seperti ini - adakah yang bisa menunjuk ke satu?
Jawaban:
Mari kita ambil : setiap X i adalah normal N ( 0 , 1 ) dan X iX=(X1,…,Xd)∼N(0,I) Xi N(0,1) Xi adalah independen - saya kira itulah yang Anda maksudkan dengan dimensi yang lebih tinggi.
Anda akan mengatakan bahwa berada dalam 1 sd dari mean ketika | | X | | < 1 (jarak antara X dan nilai rata-rata lebih rendah dari 1). Sekarang | | X | | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d ) jadi ini terjadi dengan probabilitas P ( ξ < 1 ) di mana ξ ∼ χ 2 ( d )X ||X||<1 ||X||2=X21+⋯+X2d∼χ2(d) P(ξ<1) ξ∼χ2(d) . Anda dapat menemukan ini di tabel chi square yang baik ...
Berikut ini beberapa nilai:
Dan untuk 2 sd:
Anda bisa mendapatkan nilai-nilai ini dalam R dengan commads seperti
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
, dllPost Scriptum Seperti ditunjukkan kardinal dalam komentar, seseorang dapat memperkirakan perilaku asimptotik dari probabilitas ini. CDF dari variabel adalah F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d)
Now this sum is dominated by its first term (many thanks to cardinal):P(s,y)∼yss!e−y for big s . We can apply this when d is even:
sumber