Apakah penggunaan standar deviasi dibangun dengan asumsi distribusi normal?

10

Saya bertanya-tanya apakah standar deviasi selalu dibangun dengan asumsi distribusi normal. Dengan kata lain, jika sampel tidak terdistribusi secara normal, maka haruskah menggunakan standar deviasi dianggap sebagai kesalahan?

Dougal
sumber
3
Distribusi yang seragam memiliki standar deviasi, bagaimana ini bisa menjadi "kesalahan"?

Jawaban:

18

Tidak. Penggunaan standar deviasi tidak mengasumsikan normal.

Varian dari variabel acak didefinisikan sebagai . Selama varians ada, standar deviasi juga ada. Simpangan baku adalah akar kuadrat dari varians.Var(X)=E[(XE[X])2]

Anda dapat menggunakan varians atau standar deviasi kapan saja keduanya ada. Varians muncul dalam situasi yang tak terhitung jumlahnya.Var(X)

Ada teorema khusus, lemmas dll ... meskipun untuk kasus khusus di mana mengikuti distribusi normal.X

Penggunaan standar deviasi yang umum yang bergantung pada normalitas:

Jika mengikuti distribusi normal, maka ada kemungkinan sekitar 95% bahwa X berada dalam dua standar deviasi dari rata-rata.XX

Pernyataan itu benar jika mengikuti distribusi normal (dan beberapa lainnya) tetapi itu tidak benar secara umum.X

Penggunaan umum varian yang tidak bergantung pada normalitas:

Misalkan menjadi variabel acak dengan rata-rata E [ X ] = μ dan varians Var ( X ) = σ 2 . Tentukan X i untuk i = 1 , ... , n sebagai variabel acak independen, masing-masing mengikuti distribusi identik sebagai X .XE[X]=μVar(X)=σ2Xii=1,,nX

Tetapkan mean sampel berdasarkan pada pengamatan sebagai: ˉ X n = 1n

X¯n=1ni=1nXi

Dengan Teorema Limit Pusat, bertemu menuju variabel acak yang terdistribusi normal dengan mean μ dan varians σ 2X¯nμ . (Lebih tepatnyaσ2n menyatu dalam distribusi keN(0,σ2)sebagain.)n(X¯nμ)N(0,σ2)n

Implikasi praktis adalah bahwa mean sampel untuk besar n dapat diperlakukan sebagai variabel acak berdistribusi normal yang varians σ 2X¯nn adalah fungsi dari varians dariX. (IngatVar(X)=σ2.) Dan hasil ini tidak mengharuskanXnormal. (Memang membutuhkann yanglebih rendahuntuk bekerja dengan baik jikaXlebih dekat dalam arti dengan distribusi normal.)σ2nXVar(X)=σ2XnX

Teorema Limit Pusat adalah alat di mana-mana yang menggunakan varian dan tidak perlu X untuk mengikuti distribusi normal.XX

Matthew Gunn
sumber
4
Ketidaksetaraan Chebyshev tidak spesifik untuk varians: versi yang sama berguna ada untuk setiap momen absolut dengan kekuatan lebih besar dari . Oleh karena itu saya akan menyarankan mencari di tempat lain untuk alasan mengapa SD itu penting dan (hampir) universal, seperti peran unik yang dimainkan oleh varian dalam Teorema Limit Pusat. 1
whuber
@whuber Ya, saya sudah mulai menulis contoh CLT (dan sekarang saya sudah menambahkannya). CLT adalah alasan yang sangat praktis untuk peduli dengan varians.
Matthew Gunn
1
+1. Tetapi perhatikan bahwa walaupun varians (bersama-sama dengan mean) memberikan deskripsi lengkap dalam kasus normal, untuk distribusi tidak normal ini mungkin tidak lagi menjadi kasus, dan editor data d3 lainnya mungkin jauh lebih baik
kjetil b halvorsen
2

S2σ^ML2Var[Xi]

Zen
sumber