Apa yang dikatakan deviasi standar kepada kita dalam distribusi tidak normal

40

Dalam distribusi normal, aturan 68-95-99.7 memberikan banyak standar deviasi, tetapi apa yang akan berarti deviasi standar dalam distribusi non-normal (multimodal atau condong)? Apakah semua nilai data masih berada dalam 3 standar deviasi? Apakah kita memiliki aturan seperti 68-95-99.7 yang untuk distribusi tidak normal?

Zuhaib Ali
sumber
16
Lihatlah ketidaksetaraan Chebyshev .
COOLSerdash
@ COOLSerdash bagus. Ini dengan sempurna menjawab pertanyaan saya.
Zuhaib Ali
3
@ COOLSerdash poin tepat sasaran di sini, tetapi perlu diketahui bahwa pernyataan standar ketidaksetaraan Chebyshev berkaitan dengan SD sejati yang dikenal a-priori, bukan SD yang diperkirakan dari sampel Anda. Mungkin membantu untuk membaca utas CV yang luar biasa ini: Apakah ada versi sampel ketidaksetaraan Chebeshev satu sisi?
gung - Reinstate Monica
Selain itu, Anda mungkin seharusnya tidak langsung menerima Chebyshev - Anda mungkin dapat melakukan jauh lebih baik, condong atau tidak.
Steve S
1
@ungung begitu pula aturan 68-95-99.7!
Glen_b -Reinstate Monica

Jawaban:

12

Deviasi standar adalah salah satu ukuran variasi tertentu. Ada beberapa yang lain, Mean Absolute Deviation cukup populer. Deviasi standar tidak berarti khusus. Apa yang membuatnya tampak istimewa adalah bahwa distribusi Gaussian itu istimewa.

Seperti yang ditunjukkan dalam komentar, ketidaksetaraan Chebyshev berguna untuk mendapatkan perasaan. Namun ada lagi .

Keith
sumber
9

Ini akar kuadrat dari momen pusat kedua , varians. Momen terkait dengan fungsi karakteristik (CF), yang disebut karakteristik karena alasan mereka menentukan distribusi probabilitas. Jadi, jika Anda tahu semua momen, Anda tahu CF, maka Anda tahu seluruh distribusi probabilitas.

Fungsi karakteristik distribusi normal ditentukan oleh hanya dua momen: mean dan varians (atau standar deviasi). Oleh karena itu, untuk distribusi normal, standar deviasi sangat penting, yaitu 50% dari definisinya.

Untuk distribusi lain, deviasi standar dalam beberapa hal kurang penting karena mereka memiliki momen lain. Namun, untuk banyak distribusi yang digunakan dalam praktik, saat-saat pertama adalah yang terbesar, sehingga mereka adalah yang paling penting untuk diketahui.

Sekarang, secara intuitif, mean memberi tahu Anda di mana pusat distribusi Anda, sedangkan standar deviasi memberi tahu Anda seberapa dekat dengan pusat ini data Anda.

Karena standar deviasi ada dalam satuan variabel, itu juga digunakan untuk mengukur momen lain untuk mendapatkan ukuran seperti kurtosis . Kurtosis adalah metrik tanpa dimensi yang memberi tahu Anda seberapa gemuk ekor distribusi Anda dibandingkan dengan normal

Aksakal
sumber
1
"Sekarang, secara intuitif, mean memberi tahu Anda di mana pusat distribusi Anda, sementara standar deviasi memberi tahu Anda seberapa dekat dengan pusat ini data Anda." - Bukankah ini hanya berlaku jika distribusinya Normal? Kalau tidak, lebih sering daripada tidak, median adalah ukuran kecenderungan sentral yang lebih baik.
Dan Temkin
@DanTemkin Saat menggunakan median, standar deviasi kehilangan nilainya. Itu dihitung dari rata-rata. Dengan median maka masuk akal untuk berbicara tentang kuantil, yang bisa menjadi cara untuk pergi dengan distribusi miring. OP tidak fokus pada distribusi miring. Jadi, untuk setiap distribusi simetris yang Anda maksudkan = median, itu tidak memiliki top menjadi normal. Dengan demikian masuk akal untuk berbicara tentang maksud ketika standar deviasi dibahas.
Aksakal
4

Standar deviasi sampel adalah ukuran penyimpangan nilai yang diamati dari rata-rata, dalam satuan yang sama untuk mengukur data. Distribusi normal, atau tidak.

Alexis
sumber