Apakah penggunaan standar deviasi dibangun dengan asumsi distribusi normal?

10

Saya bertanya-tanya apakah standar deviasi selalu dibangun dengan asumsi distribusi normal. Dengan kata lain, jika sampel tidak terdistribusi secara normal, maka haruskah menggunakan standar deviasi dianggap sebagai kesalahan?

normal-distribution standard-deviation Dougal
sumber

3

Distribusi yang seragam memiliki standar deviasi, bagaimana ini bisa menjadi "kesalahan"?

18

Tidak. Penggunaan standar deviasi tidak mengasumsikan normal.

Varian dari variabel acak didefinisikan sebagai . Selama varians ada, standar deviasi juga ada. Simpangan baku adalah akar kuadrat dari varians. $\operatorname{Var}(X) = \operatorname{E}[(X - \operatorname{E}[X])^2]$

Anda dapat menggunakan varians atau standar deviasi kapan saja keduanya ada. Varians muncul dalam situasi yang tak terhitung jumlahnya. $\operatorname{Var}(X)$

Ada teorema khusus, lemmas dll ... meskipun untuk kasus khusus di mana mengikuti distribusi normal. $X$

Penggunaan standar deviasi yang umum yang bergantung pada normalitas:

Jika mengikuti distribusi normal, maka ada kemungkinan sekitar 95% bahwa berada dalam dua standar deviasi dari rata-rata. $X$ $X$

Pernyataan itu benar jika mengikuti distribusi normal (dan beberapa lainnya) tetapi itu tidak benar secara umum. $X$

Penggunaan umum varian yang tidak bergantung pada normalitas:

Misalkan menjadi variabel acak dengan rata-rata dan varians . Tentukan untuk sebagai variabel acak independen, masing-masing mengikuti distribusi identik sebagai . $X$ $\operatorname{E}[X] = \mu$ $\operatorname{Var}(X) = \sigma^2$ $X_i$ $i=1, \ldots, n$ $X$

Tetapkan mean sampel berdasarkan pada pengamatan sebagai: $n$

{\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}

$\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i$

Dengan Teorema Limit Pusat, bertemu menuju variabel acak yang terdistribusi normal dengan mean dan varians $\bar{X}_n$ $\mu$ . (Lebih tepatnya $\frac{\sigma^2}{n}$ menyatu dalam distribusi kesebagai.) $\sqrt{n}\left( \bar{X}_n - \mu \right)$ $\mathcal{N}(0,\sigma^2)$ $n \rightarrow \infty$

Implikasi praktis adalah bahwa mean sampel untuk besar dapat diperlakukan sebagai variabel acak berdistribusi normal yang varians $\bar{X}_n$ $n$ adalah fungsi dari varians dari. (Ingat) Dan hasil ini tidak mengharuskannormal. (Memang membutuhkanlebih rendahuntuk bekerja dengan baik jikalebih dekat dalam arti dengan distribusi normal.) $\frac{\sigma^2}{n}$ $X$ $\operatorname{Var}(X)=\sigma^2$ $X$ $n$ $X$

Teorema Limit Pusat adalah alat di mana-mana yang menggunakan varian dan tidak perlu untuk mengikuti distribusi normal. $X$ $X$

Matthew Gunn
sumber

4

Ketidaksetaraan Chebyshev tidak spesifik untuk varians: versi yang sama berguna ada untuk setiap momen absolut dengan kekuatan lebih besar dari

. Oleh karena itu saya akan menyarankan mencari di tempat lain untuk alasan mengapa SD itu penting dan (hampir) universal, seperti peran unik yang dimainkan oleh varian dalam Teorema Limit Pusat.

1

$1$

whuber

@whuber Ya, saya sudah mulai menulis contoh CLT (dan sekarang saya sudah menambahkannya). CLT adalah alasan yang sangat praktis untuk peduli dengan varians.

Matthew Gunn

1

+1. Tetapi perhatikan bahwa walaupun varians (bersama-sama dengan mean) memberikan deskripsi lengkap dalam kasus normal, untuk distribusi tidak normal ini mungkin tidak lagi menjadi kasus, dan editor data d3 lainnya mungkin jauh lebih baik

kjetil b halvorsen

2

$S^2$ $\hat{\sigma}^2_{ML}$ $\mathrm{Var}[X_i]$

Zen
sumber

Apakah penggunaan standar deviasi dibangun dengan asumsi distribusi normal?

Jawaban:

Penggunaan standar deviasi yang umum yang bergantung pada normalitas:

Penggunaan umum varian yang tidak bergantung pada normalitas: