Simpangan baku deviasi standar

54

Apa yang merupakan penduga standar deviasi dari standar deviasi jika normalitas data dapat diasumsikan?

Ferdi
sumber
Saya kira Anda mencari distribusi varian sampel . Ini tautan ke bagian di halaman Wikipedia tentang varians pada 16:55, 21 Agustus 2016. Karena ini adalah tautan ke Wikipedia, artikel mungkin berubah di masa mendatang. Oleh karena itu, bagian ini mungkin tidak mencerminkan konten yang dirujuk oleh jawaban ini setelah perubahan tersebut. Oleh karena itu tautan ke versi historis dari halaman Wikipedia diberikan di sini. Artikel terkini tentang varian ditemukan [di sini] ( en.wikipedia.org/wik

Jawaban:

58

Biarkan . Seperti yang ditunjukkan pada utas ini , simpangan baku dari simpangan baku sampel,X1,...,XnN(μ,σ2)

s=1n-1saya=1n(Xsaya-X¯),

aku s

SD(s)=E([E(s)-s]2)=σ1-2n-1(Γ(n/2)Γ(n-12))2

di mana adalah fungsi gamma , n adalah ukuran sampel dan \ overline {X} = \ frac {1} {n} \ sum_ {i = 1} ^ {n} X_i adalah mean sampel. Karena s adalah penaksir konsisten \ sigma , ini menyarankan mengganti \ sigma dengan s dalam persamaan di atas untuk mendapatkan penaksir yang konsisten dari {\ rm SD} (s) .Γ()¯ X = 1nsσσsSD(s)X¯=1nsaya=1nXsayasσσsSD(s)

Jika Anda merupakan penaksir yang tidak bias yang Anda cari, kami melihat di utas ini bahwa E(s)=σ2n-1Γ(n/2)Γ(n-12) , yang, secara linearitas harapan, menyarankan

sn-12Γ(n-12)Γ(n/2)

sebagai penaksir yang tidak bias dari . Semua ini bersama dengan linearitas ekspektasi memberikan penaksir yang tidak bias dari : S D ( s )σSD(s)

sΓ(n-12)Γ(n/2)n-12-(Γ(n/2)Γ(n-12))2
Makro
sumber
12
+1 Sangat menyenangkan melihat tidak hanya balasan yang lebih baik muncul setelah hampir dua tahun, tetapi balasan yang memberikan detail lebih bermanfaat daripada referensi di tempat lain di utas ini.
whuber
2
Apakah Anda lupa untuk menyejajarkan jarak dalam rumus pertama?
danijar
2
Fungsi Gamma sulit untuk menghitung nilai tidak kecil . Menerapkan perkiraan Stirling, saya mendapatkan , yang secara komputasi layak serta sedikit lebih bijaksana dalam berekspresi. s nse(1-1n)n-1-1
Equaeghe
1
Mungkin patut menunjukkan bahwa s (dihitung dalam jawaban @ Macro kadang-kadang disebut sebagai kesalahan standar dari standar deviasi sampel.
Harvey Motulsky
Bagi mereka yang menginginkan bentuk sederhana, adalah pendekatan yang baik pada tingkat beberapa persen. s/2(n-1)
Syrtis Major
5

Asumsikan Anda mengamati iid dari normal dengan mean nol dan varians . Standar deviasi (empiris) adalah akar kuadrat dari estimator dari (tidak bias atau tidak yang bukan pertanyaannya). Sebagai estimator (diperoleh dengan ), memiliki varian yang dapat dihitung secara teoritis. Mungkin yang Anda sebut deviasi standar dari deviasi standar sebenarnya adalah akar kuadrat dari varian deviasi standar, yaitu ? Ini bukan penaksir, ini adalah kuantitas teoretis (sepertiσ 2 σ 2 σ 2 X 1 , ... , X n σX1,...,Xnσ2σ^2σ2X1,...,Xnσ^ σ/E[(σ-σ^)2]σ/n harus dikonfirmasi) yang dapat dihitung secara eksplisit!

robin girard
sumber
Bukankah fungsi penduga masih merupakan penduga? Saya masih belum tahu \ sigma, hanya X_i.
ok, maka Anda mungkin akan memperkirakan akar kuadrat dari varians estimasi akar kuadrat dari varians ... benar :) harus seperti ? σ^/n
robin girard
Apa yang ditemukan Srikant (dan apa yang tampaknya dikonfirmasi di PhysicsForums) harus ada , jadi alih-alih . σ2σ^22n
1
Aww, komentar-komentar itu terkunci; . Setidaknya yang satu ini memberikan hasil sesuai dengan bootstrap. σ^2n
-3

@ Macro memberikan penjelasan matematis yang bagus dengan persamaan untuk menghitung. Berikut ini adalah eksplorasi yang lebih umum untuk orang-orang yang kurang matematis.

Saya pikir istilah "SD of SD" membingungkan banyak orang. Lebih mudah untuk berpikir tentang interval kepercayaan dari SD. Seberapa tepat simpangan baku yang Anda hitung dari sampel? Hanya kebetulan Anda mungkin telah mendapatkan data yang dikumpulkan bersama, membuat sampel SD jauh lebih rendah daripada populasi SD. Atau Anda mungkin memiliki nilai yang diperoleh secara acak yang jauh lebih tersebar daripada populasi keseluruhan, menjadikan sampel SD lebih tinggi daripada populasi SD.

Menafsirkan CI SD sangat mudah. Mulailah dengan asumsi adat bahwa data Anda diambil secara acak dan independen dari distribusi Gaussian. Sekarang ulangi pengambilan sampel ini berkali-kali. Anda mengharapkan 95% interval kepercayaan tersebut untuk memasukkan populasi benar SD.

Berapa lebar interval kepercayaan 95% SD? Itu tergantung pada ukuran sampel (n) tentu saja.

n: 95% CI SD

2: 0,45 * SD hingga 31,9 * SD

3: 0,52 * SD hingga 6,29 * SD

5: 0,60 * SD hingga 2,87 * SD

10: 0,69 * SD hingga 1,83 * SD

25: 0.78 * SD hingga 1.39 * SD

50: 0.84 * SD hingga 1.25 * SD

100: 0.88 * SD hingga 1.16 * SD

500: 0.94 * SD hingga 1.07 * SD

Kalkulator web gratis

Harvey Motulsky
sumber
Saya dapat melakukan Monte Carlo, saya hanya ingin melakukannya dengan cara yang lebih 'scency'; masih Anda benar bahwa distribusinya tidak normal, jadi sd ini tidak akan berguna untuk pengujian.
4
Untuk apa nilainya, saya tidak nyaman dengan pernyataan "interval kepercayaan yang 95% ... kemungkinan mengandung SD yang benar" (atau, dinyatakan lebih eksplisit di halaman tertaut: "Anda dapat menjadi 95% yakin bahwa CI dihitung dari SD sampel berisi populasi benar SD "). Saya pikir pernyataan ini menggoda dengan memperkuat kesalahpahaman populer, lihat di sini , misalnya, untuk diskusi terkait tentang CV.
gung - Reinstate Monica
5
Apa yang "Saya pikir baik konsep dan terminologi" SD SD "terlalu licin untuk ditangani" seharusnya berarti? Standar deviasi sampel adalah variabel acak yang memiliki standar deviasi.
Makro
@ Macro Terima kasih atas komentar anda Saya menulis ulang secara substansial.
Harvey Motulsky
1
@ung. Saya menulis ulang untuk menjelaskan interval kepercayaan diri dengan benar.
Harvey Motulsky