Untuk mengkarakterisasi jumlah dispersi 2D di sekitar centroid, Anda hanya ingin (root) jarak kuadrat,
σ^=RMS=1n∑i((xi−x¯)2+(yi−y¯)2)−−−−−−−−−−−−−−−−−−−−−−−√.
Dalam rumus ini, adalah titik koordinat dan centroid mereka (titik rata-rata) adalah(xi,yi),i=1,2,…,n(x¯,y¯).
Pertanyaannya menanyakan distribusi jarak. Ketika bola memiliki distribusi bivariat isotropik Normal di sekitar centroid mereka - yang merupakan asumsi standar dan secara fisik masuk akal - jarak kuadrat sebanding dengan distribusi chi-kuadrat dengan dua derajat kebebasan (satu untuk setiap koordinat). Ini adalah konsekuensi langsung dari satu definisi dari distribusi chi-squared sebagai jumlah kuadrat dari variabel normal standar independen, karena adalah kombinasi linear dari normal independen dengan ekspektasi Menulis varian umum dari
xi−x¯=n−1nxi−∑j≠i1nxj
E[xi−x¯]=n−1nE[xi]−∑j≠i1nE[xj]=0.
xisebagai , Asumsi anisotropi adalah bahwa memiliki distribusi yang sama dengan dan independen dari mereka, sehingga hasil yang identik berlaku untuk distribusi . Ini menetapkan konstanta proporsionalitas:
kuadrat jarak memiliki distribusi chi-kuadrat dengan dua derajat kebebasan, diskalakan oleh .σ2E[(xi−x¯)2]=Var(xi−x¯)=(n−1n)2Var(xi)+∑j≠i(1n)2Var(xj)=n−1nσ2.
yjxi(yj−y¯)2n−1nσ2
Tes paling parah dari persamaan ini adalah kasus , karena fraksi berbeda paling banyak dari . Dengan mensimulasikan percobaan, baik untuk dan , dan terlalu banyak menempatkan histogram jarak kuadrat dengan distribusi chi-kuadrat skala (merah), kita dapat memverifikasi teori ini.n=2n−1n1n = 40n=2n=40
Setiap baris menunjukkan data yang sama: di sebelah kiri sumbu x adalah logaritmik; di sebelah kanan itu menunjukkan jarak kuadrat yang sebenarnya. Nilai sebenarnya dari untuk simulasi ini ditetapkan ke .1σ1
Hasil ini untuk 100.000 iterasi dengan dan 50.000 iterasi dengan . Kesepakatan antara histogram dan kepadatan chi-squared sangat baik.n = 40n=2n=40
Meskipun tidak diketahui, ia dapat diperkirakan dengan berbagai cara. Misalnya, jarak kuadrat rata-rata harus kali rata-rata dari , yaitu . Dengan , misalnya, perkirakan sebagai kali jarak kuadrat rata-rata. Jadi estimasi akan menjadi kali jarak RMS. Dengan menggunakan nilai kita dapat mengatakan bahwa:n - 1σ2χ 2 2 2n=40σ240n−1nσ2χ222n=40σ2σ√4039/2σ χ 2 240/78−−−−−√χ22
Sekitar 39% jarak akan kurang dari , karena 39% dari kurang dari . χ 2 2 139/40−−−−−√σ^χ221
Sekitar 78% jarak akan kurang dari kali , karena 78% dari kurang dari . √3–√ χ 2 2 339/40−−−−−√σ^χ223
Dan seterusnya, untuk beberapa kelipatan yang ingin Anda gunakan sebagai pengganti atau . Sebagai tanda centang, dalam simulasi untuk diplot sebelumnya, proporsi aktual dari jarak kuadrat kurang dari kali adalah3 n = 40 1 , 2 , … , 10 n - 113n=401,2,…,10n−1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
Proporsi teoritisnya adalah
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Perjanjian itu luar biasa.
Berikut ini adalah R
kode untuk melakukan dan menganalisis simulasi.
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
Saya pikir Anda memiliki beberapa hal yang agak membingungkan. Memang benar bahwa jarak tidak boleh negatif, tetapi itu tidak mempengaruhi perhitungan standar deviasi. Walaupun itu berarti distribusi jarak tidak bisa persis normal, itu bisa tetap dekat; tetapi bahkan jika itu jauh dari normal, masih ada standar deviasi.
Juga, tidak ada standar deviasi "satu sisi" - Anda mungkin memikirkan tes hipotesis (yang bisa satu sisi atau dua sisi). Dalam judul Anda, Anda mengatakan rata-rata adalah 0, tetapi jarak rata-rata tidak akan 0 (kecuali bola berada di tumpukan 40 bola tinggi!) Dan Anda mengatakan ada batas - mungkin ada batas, jika bola dijatuhkan di sebuah ruangan maka mereka tidak bisa lebih jauh dari pusat daripada jarak ke dinding terdekat. Tetapi kecuali beberapa bola memantul ke dinding, itu tidak akan mempengaruhi hal-hal.
Jadi, setelah Anda memiliki 40 jarak Anda menghitung deviasi standar (dan rata-rata, median, rentang interkuartil, dll) menggunakan metode standar. Anda juga dapat membuat plot jarak (mis. Plot normal kuantil, plot kotak) untuk melihat apakah plot tersebut terdistribusi normal (jika itu menarik).
sumber
Sudah lama sejak ini ditanyakan, tetapi jawaban atas pertanyaan adalah bahwa ini adalah distribusi 2D bernama distribusi Rayleigh. Di sini asumsinya adalah bahwa faktor bentuk Rayleigh sama dengan standar deviasi koordinat X dan Y. Dalam praktiknya nilai faktor bentuk akan dihitung dari rata-rata kumpulan standar deviasi X dan Y.
dimulai dengan , dan
gunakan distribusi normal bivariat.
terjemahkan ke titik dan anggap .
Juga asumsikan bahwa jadi ganti keduanya dengan
kemudian distribusi 2-D dinyatakan sebagai jari-jari di sekitar titik yang dikenal sebagai distribusi Rayleigh .
Tentu saja ini untuk distribusi berkelanjutan. Untuk sampel hanya 40 bola tidak ada solusi yang tepat. Anda harus melakukan Analisis Monte Carlo dengan sampel 40 bola. Taylor, MS & Grubbs, Frank E. (1975). "Perkiraan Distribusi Probabilitas untuk Penyebaran Ekstrim" menemukan perkiraan untuk distribusi Chi dan log-normal untuk yang sesuai dengan distribusi sampel.
Sunting - Meskipun Wuber ragu, proporsi teoretis yang dia hitung adalah:
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Dari fungsi CDF, nilai-nilai Sigma kumulatif untuk r (dalam sigmas) sama dengan rentang dari:
0-1, 0-2, 0-3, ..., 0-10
adalah:
0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933
sumber
Distribusi normal, baik nilai positif maupun negatif, masuk akal jika Anda mengetahui bahwa distribusi normal ini adalah untuk jari-jari atau "distance from centroid". Variabel lainnya, sudut, adalah acak dan didistribusikan secara seragam dari 0-pi
sumber