Bagaimana saya bisa menemukan standar deviasi dari standar deviasi sampel dari distribusi normal?

11

Maafkan saya jika saya melewatkan sesuatu yang agak jelas.

Saya seorang ahli fisika dengan apa yang pada dasarnya adalah distribusi (histogram) yang berpusat tentang nilai rata-rata yang mendekati distribusi Normal. Nilai penting bagi saya adalah standar deviasi dari variabel acak Gaussian ini. Bagaimana saya mencoba mencari kesalahan pada standar deviasi sampel? Saya merasa ada hubungannya dengan kesalahan pada setiap bin di histogram asli.

Berjemur
sumber
Sebuah petunjuk disediakan di stats.stackexchange.com/questions/26924 . Secara umum, kesalahan pengambilan sampel varian dapat dihitung dalam hal empat momen pertama dari distribusi dan oleh karena itu kesalahan pengambilan sampel SD setidaknya dapat diperkirakan dari momen-momen tersebut.
whuber

Jawaban:

12

Sepertinya Anda meminta perhitungan standar deviasi dari sampel standar deviasi. Artinya, Anda meminta , di manaSD(s)=var(s)

s=1n1i=1n(XiX¯),

dan ¯ X adalah mean sampel.X1,...,XnN(μ,σ2)X¯

Pertama, kita tahu dari sifat dasar varian itu

var(s)=E(s2)E(s)2

Karena varians sampel tidak bias, kita tahu . Dalam Mengapa standar deviasi sampel penaksir bias σ ? , E ( s ) dihitung, dari mana kita dapat menyimpulkanE(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

karena itu

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2
Makro
sumber
Poin bagus. Saya mendapat estimasi varian s ^ 2. Mengambil akar kuadrat memberikan perkiraan standar deviasi s ^ 2. Tetapi Anda menjawab pertanyaan aktual yaitu untuk mendapatkan standar deviasi dari s. Saya akan berasumsi bahwa untuk alasan praktis Anda juga akan mengganti σ dengan s untuk mendapatkan perkiraan menggunakan rumus.
Michael R. Chernick
Ya, itu benar, Anda dapat mengganti dengan s dan perkiraan ini berkinerja baik bahkan untuk ukuran sampel sederhana - Saya melakukan beberapa pengujian dengan n = 20 . σsn=20
Makro
11

Kuantitas memiliki distribusi chi-square dengan n - 1 derajat kebebasan ketika sampel independen dan didistribusikan dengan distribusi normal yang sama. Kuantitas ini dapat digunakan untuk mendapatkan interval kepercayaan untuk varian normal dan standar deviasi. Jika Anda memiliki nilai mentah dan bukan hanya nilai pusat sampah, Anda dapat menghitung s 2 . X=(n1)s2/σ2n1s2

Diketahui bahwa jika memiliki distribusi chi-square dengan n - 1 derajat kebebasan variansnya adalah 2 ( n - 1 ) . Mengetahui hal ini dan fakta bahwa V a r ( c X ) = c 2 V a r ( X ) kita dapatkan bahwa s 2 memiliki varian sama dengan 2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2 Meskipun σ 4 tidak diketahui, Anda dapat memperkirakannya dengan s 4 dan Anda memiliki gambaran kasar tentang apa varian s 2 itu.

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2
Michael R. Chernick
sumber
Saya akan memposting ini di awal, tetapi masalahnya seperti yang saya lihat di sini adalah bahwa tidak diketahui. Mengingat fakta itu, saya tidak tahu apakah valid untuk mendekati s 4σ 4 jika kita bahkan tidak tahu ukuran sampel. Saya ingat bahwa orang dapat menunjukkan bahwa momen keempat dapat memiliki masalah serius dengan pencilan. σ2s4σ4
Néstor
adalah estimator yang konsisten dari σ 4 (asalkan σ 4 ada), benar @Nesp? Saya pikir ini biasanya apa yang dimaksud ketika orang mengatakan "perkiraan" atau "ide kasar". s4σ4σ4
Makro
2
Mungkin kurang tidur, tapi, bukankah itu seperti alasan melingkar?
Néstor
Kami mengasumsikan sejak awal bahwa data berasal dari distribusi normal sehingga tidak ada masalah outlier. Maksud saya kasar seperti yang disarankan Macro. Saya setuju bahwa ukuran sampel mempengaruhi seberapa dekat s ^ 4 dengan σ ^ 4. Tetapi kekhawatiran tentang outlier adalah offbase Nesp. Jika Anda menurunkan saya untuk itu saya pikir itu sangat tidak adil. Apa yang saya sajikan adalah cara standar untuk memperkirakan standar deviasi untuk s ^ 2 ketika data secara normal didistribusi.
Michael R. Chernick
@Nesp, Michael telah memberikan penaksir yang konsisten tentang varians dari standar deviasi sampel dari sampel terdistribusi normal - untuk sampel besar itu akan melakukan dengan baik - mensimulasikan dan mencari tahu. Saya tidak yakin mengapa Anda berpikir ini adalah alasan yang melingkar.
Makro
7

σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Rp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σI=(L,U)σ2I=(L2,U2)


sumber
Saya pikir dia benar-benar hanya menginginkan standar deviasi s.
Michael R. Chernick