Perbedaan antara kesalahan standar dan standar deviasi

96

Saya berjuang untuk memahami perbedaan antara kesalahan standar dan standar deviasi. Bagaimana mereka berbeda dan mengapa Anda perlu mengukur kesalahan standar?

louis xie
sumber
7
Komentar cepat, bukan jawaban karena sudah ada dua yang berguna: simpangan baku adalah properti dari (distribusi) variabel acak. Kesalahan standar sebaliknya terkait dengan pengukuran pada sampel tertentu. Keduanya bisa bingung ketika mengaburkan perbedaan antara alam semesta dan sampel Anda.
Francesco

Jawaban:

31

Untuk melengkapi jawaban atas pertanyaan, Ocram dengan baik mengatasi kesalahan standar tetapi tidak kontras dengan standar deviasi dan tidak menyebutkan ketergantungan pada ukuran sampel. Sebagai kasus khusus untuk estimator, pertimbangkan mean sampel. Kesalahan standar untuk rata-rata adalah manaσadalah standar deviasi populasi. Jadi, dalam contoh ini kita melihat secara eksplisit bagaimana kesalahan standar berkurang dengan meningkatnya ukuran sampel. Deviasi standar paling sering digunakan untuk merujuk pada pengamatan individu. Jadi standar deviasi menggambarkan variabilitas pengamatan individu sedangkan standar kesalahan menunjukkan variabilitas estimator. Estimator yang baik konsisten, artinya mereka menyatu dengan nilai parameter yang sebenarnya. Ketika kesalahan standarnya berkurang menjadi 0 ketika ukuran sampel bertambah, penaksirnya konsisten yang dalam banyak kasus terjadi karena kesalahan standar menjadi 0 seperti yang kita lihat secara eksplisit dengan rata-rata sampel.σ/nσ

Michael Chernick
sumber
3
Re: "... konsisten yang berarti kesalahan standar mereka berkurang menjadi 0" - itu tidak benar. Apakah Anda ingat diskusi ini: stats.stackexchange.com/questions/31036/… ?
Makro
1
Ya tentu saja saya ingat diskusi tentang pengecualian yang tidak biasa dan saya memikirkannya ketika saya menjawab pertanyaan itu. Tapi pertanyaannya adalah tentang kesalahan standar dan secara sederhana estimasi parameter yang baik konsisten dan memiliki kesalahan standar mereka cenderung ke 0 seperti dalam kasus mean sampel.
Michael Chernick
4
Saya setuju dengan komentar Anda - kesalahan standar rata-rata sampel menjadi 0 dan rata -rata sampel konsisten. Tetapi kesalahan standarnya menjadi nol bukanlah konsekuensi dari (atau setara dengan) fakta bahwa itu konsisten, yang merupakan jawaban Anda.
Makro
3
@ Macro ya jawabannya bisa ditingkatkan yang saya putuskan untuk lakukan. Saya pikir penting untuk tidak terlalu teknis dengan OPs karena kualifikasi semuanya bisa rumit dan membingungkan. Tetapi akurasi teknis tidak harus dikorbankan demi kesederhanaan. Jadi saya pikir cara saya mengatasi ini dalam pengeditan saya adalah cara terbaik untuk melakukan ini.
Michael Chernick
9
Saya setuju bahwa penting untuk tidak mendapatkan teknis kecuali benar-benar diperlukan. Satu-satunya komentar saya adalah bahwa, begitu Anda sudah memilih untuk memperkenalkan konsep konsistensi (konsep teknis), tidak ada gunanya salah mengartikannya atas nama membuat jawaban lebih mudah dimengerti. Saya pikir suntingan Anda tidak menanggapi komentar saya.
Makro
51

Inilah jawaban yang lebih praktis (dan bukan matematis):

  • SD (standar deviasi) mengkuantifikasi sebar - seberapa banyak nilainya berbeda satu sama lain.
  • SEM (standard error of mean) mengukur seberapa tepatnya Anda mengetahui rata-rata populasi sebenarnya. Ini memperhitungkan nilai SD dan ukuran sampel.
  • Baik SD dan SEM berada di unit yang sama - unit data.
  • SEM, menurut definisi, selalu lebih kecil dari SD.
  • SEM semakin kecil seiring sampel Anda semakin besar. Ini masuk akal, karena rata-rata sampel besar cenderung lebih dekat dengan rata-rata populasi sebenarnya daripada rata-rata sampel kecil. Dengan sampel besar, Anda akan tahu nilai mean dengan banyak presisi bahkan jika data sangat tersebar.
  • SD tidak berubah diprediksi saat Anda memperoleh lebih banyak data. SD yang Anda hitung dari sampel adalah perkiraan SD terbaik dari keseluruhan populasi. Saat Anda mengumpulkan lebih banyak data, Anda akan menilai SD populasi dengan lebih presisi. Tetapi Anda tidak dapat memprediksi apakah SD dari sampel yang lebih besar akan lebih besar atau lebih kecil dari SD dari sampel kecil. (Ini penyederhanaan, tidak sepenuhnya benar. Lihat komentar di bawah.)

Perhatikan bahwa kesalahan standar dapat dihitung untuk hampir semua parameter yang Anda hitung dari data, bukan hanya rata-rata. Ungkapan "kesalahan standar" agak ambigu. Poin-poin di atas hanya merujuk pada kesalahan standar rata-rata.

(Dari Panduan Statistik GraphPad yang saya tulis.)

Harvey Motulsky
sumber
11
n100n.18n=2
4
@whuber: Tentu saja kamu benar. Varians (SD kuadrat) yang tidak akan berubah diprediksi saat Anda menambahkan lebih banyak data. SD akan menjadi sedikit lebih besar saat ukuran sampel naik, terutama ketika Anda mulai dengan sampel kecil. Perubahan ini kecil dibandingkan dengan perubahan SEM karena perubahan ukuran sampel.
Harvey Motulsky
@ HarveyMotulsky: Mengapa peningkatan sd?
Andrew
Dengan sampel besar, varians sampel akan cukup dekat dengan varians populasi, sehingga sampel SD akan dekat dengan populasi SD. Dengan sampel yang lebih kecil, varians sampel akan sama dengan varians populasi rata-rata, tetapi perbedaan akan lebih besar. Jika simetris sebagai varian, mereka akan asimetris seperti SD. Contoh: Varians populasi adalah 100. Dua varians sampel adalah 80 atau 120 (simetris). Sampel SD seharusnya 10, tetapi akan menjadi 8,94 atau 10,95. Sampel SD rata-rata dari distribusi simetris di sekitar varians populasi, dan rata-rata SD akan rendah, dengan N. rendah
Harvey Motulsky
43

θx={x1,...,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^θ^(x)θ^

okram
sumber
1
Apakah standar kesalahan estimasi sama dengan standar penyimpangan estimasi variabel?
Yurii
6

(perhatikan bahwa saya fokus pada kesalahan standar rata-rata, yang saya yakin si penanya juga, tetapi Anda dapat menghasilkan kesalahan standar untuk setiap statistik sampel)

Kesalahan standar terkait dengan standar deviasi tetapi mereka tidak sama dan peningkatan ukuran sampel tidak membuat mereka lebih dekat. Sebaliknya, itu membuat mereka semakin jauh. Standar deviasi sampel menjadi lebih dekat dengan standar deviasi populasi karena ukuran sampel meningkat tetapi tidak kesalahan standar.

Terkadang terminologi seputar ini agak tebal untuk dilalui.

Ketika Anda mengumpulkan sampel dan menghitung standar deviasi sampel itu, seiring dengan bertambahnya ukuran sampel, perkiraan standar deviasi akan semakin akurat. Sepertinya dari pertanyaan Anda itulah yang Anda pikirkan. Tetapi juga mempertimbangkan bahwa rata-rata sampel cenderung lebih dekat dengan rata-rata populasi. Itu penting untuk memahami kesalahan standar.

Kesalahan standar adalah tentang apa yang akan terjadi jika Anda mendapatkan beberapa sampel dengan ukuran tertentu. Jika Anda mengambil sampel 10, Anda bisa mendapatkan perkiraan dari rata-rata. Kemudian Anda mengambil sampel 10 dan estimasi rata-rata baru, dan seterusnya. Deviasi standar dari rata-rata sampel tersebut adalah kesalahan standar. Mengingat bahwa Anda mengajukan pertanyaan Anda, Anda mungkin dapat melihat sekarang bahwa jika N tinggi maka kesalahan standar lebih kecil karena rata-rata sampel akan cenderung untuk menyimpang jauh dari nilai sebenarnya.

Untuk beberapa yang terdengar agak ajaib mengingat Anda telah menghitung ini dari satu sampel. Jadi, apa yang bisa Anda lakukan adalah bootstrap kesalahan standar melalui simulasi untuk menunjukkan hubungan. Dalam R akan terlihat seperti:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Anda akan menemukan bahwa dua perintah terakhir menghasilkan angka yang sama (kurang-lebih). Anda dapat memvariasikan nilai n, m, dan s dan nilai-nilai itu akan selalu saling berdekatan.

John
sumber
Saya menemukan ini sangat membantu, terima kasih telah memposting. Apakah adil jika menggambarkan kesalahan standar sebagai "standar deviasi dari distribusi sampling"? Distribusi sampling menjadi y di blok kode Anda di atas? Inilah yang membingungkan saya, menggabungkan parameter sampel sd dan maksud dengan parameter distribusi sampling.
Doug Fir
1
Jika Anda mengubah kata-kata Anda untuk menentukan sampel berarti untuk kasus ini, ya.
John