Apa itu standar deviasi?

31

Apa itu standar deviasi, bagaimana cara menghitungnya dan apa gunanya dalam statistik?

Oren Hizkiya
sumber
7
Saya tidak berpikir tujuan dari situs ini adalah untuk menjawab pertanyaan siswa kelas 6. Dan anak saya, ketika dihadapkan dengan pertanyaan seperti itu, akan mencari jawabannya di google. Jika ada bagian spesifik dari definisi yang tidak Anda mengerti, tanyakan saja. Tetapi pertanyaan yang tidak fokus pada topik dasar seperti itu menunjukkan (kepada saya pula) bahwa poster itu bahkan tidak berusaha menemukan jawaban. Apa yang akan terjadi selanjutnya "Apa nomor dan bagaimana mereka digunakan?"
PeterR
9
Saya pikir pertanyaan ini baik-baik saja. Sebenarnya, itu adalah contoh paling banyak dipilih tentang pertanyaan topik di Area 51. Dasar-dasarnya ok di sini!
Peter Smit
6
Setuju, ini pertanyaan yang valid. Ini juga dinyatakan dengan baik karena meminta contoh penggunaan dan perhitungan. Tentunya tujuan dari situs ini adalah untuk membuat repositori untuk SEMUA pertanyaan statistik.
Joel
5
Saya setuju dengan Joel. Standar deviasi adalah konsep penting dalam statistik. Bukankah itu tidak masuk akal jika Anda tidak dapat mengajukan pertanyaan tentang hal itu di situs tentang mengajukan pertanyaan statistik.
Parbury
4
Sebagai guru sekolah menengah di kehidupan sebelumnya, saya akan mengatakan bahwa tidak ada pertanyaan konyol. Saat Anda memberi label pertanyaan tidak layak, saat itu Anda mengambil cara belajar yang paling ampuh, yaitu mengajukan pertanyaan! (Saya akan menjawab pertanyaan ini di bawah.)
Adhesh Josh

Jawaban:

30

Simpangan baku adalah angka yang mewakili "sebaran" atau "dispersi" dari sekumpulan data. Ada langkah-langkah lain untuk menyebar, seperti rentang dan varian.

Berikut adalah beberapa contoh kumpulan data, dan standar deviasinya:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Set data di atas memiliki rata-rata yang sama.

Deviasi berarti "jarak dari rata-rata".

"Standar" di sini berarti "standar", yang berarti standar deviasi dan rata-rata berada dalam unit yang sama, tidak seperti varians.

Misalnya, jika tinggi rata-rata adalah 2 meter , standar deviasi mungkin 0,3 meter , sedangkan variansnya adalah 0,09 meter persegi .

Sangat mudah untuk mengetahui bahwa setidaknya 75% dari titik data selalu berada dalam 2 standar deviasi dari rata-rata (atau sekitar 95% jika distribusinya adalah Normal).

Misalnya, jika rata-rata adalah 100, dan standar deviasi adalah 15, maka setidaknya 75% dari nilai adalah antara 70 dan 130.

Jika distribusi normal, maka 95% dari nilai adalah antara 70 dan 130.

Secara umum, nilai tes IQ terdistribusi normal dan memiliki rata-rata 100. Seseorang yang "sangat cerah" adalah dua standar deviasi di atas rata-rata, yang berarti skor tes IQ 130.

Neil McGuigan
sumber
Neil, terima kasih atas jawaban Anda, dapatkah Anda menjelaskan dengan lebih terperinci bagian "standar" dalam istilah "standar deviasi". Jika sesuai, bisakah Anda menyentuh istilah "standar" yang sama dalam istilah "standar kesalahan rata-rata". Terima kasih sebelumnya.
stan
Apakah suntingan Anda baru-baru ini: dalam arti apa SD "distandarisasi"? Biasanya, ini menjadi dasar untuk standardisasi, tetapi tidak dengan sendirinya distandarisasi (seperti menskalakannya kembali dengan beberapa perkiraan variasi pengambilan sampelnya).
whuber
Itu standar untuk berada di unit yang sama dengan rata-rata
Neil McGuigan
Contoh dengan tinggi rata-rata 2 meter adalah contoh yang baik tentang perlunya menjaga penggunaan desimal. Contoh yang sama dapat dilakukan dalam sentimeter di mana deviasi standar 30 sentimeter secara logis akan berasal dari varian 900 sentimeter.
Robert Jones
Kesan saya adalah bahwa mereka harus dihindari dalam unit pengukuran primer. Pertimbangkan hasil katakanlah dari SD 0,133 dalam meter dikonversi menjadi desimeter, sentimeter dan milimeter. Adakah yang mau menjelaskan?
Robert Jones
9

Kutipan dari Wikipedia .

Ini menunjukkan berapa banyak variasi yang ada dari "rata-rata" (rata-rata, atau nilai yang diharapkan / dianggarkan). Deviasi standar yang rendah menunjukkan bahwa titik data cenderung sangat dekat dengan rata-rata, sedangkan deviasi standar yang tinggi menunjukkan bahwa data tersebar di berbagai nilai.

c4il
sumber
5

Saat menggambarkan variabel, kami biasanya merangkumnya menggunakan dua ukuran: ukuran pusat dan ukuran penyebaran. Ukuran-ukuran umum dari pusat meliputi rata-rata, median dan mode. Ukuran spread yang umum termasuk varians dan rentang interkuartil.

Varians (diwakili oleh sigma huruf kecil Yunani naik ke kekuatan dua) umumnya digunakan ketika rata-rata dilaporkan. Varians adalah rata-rata deviasi kuadrat dari variabel. Penyimpangan dihitung dengan mengurangi rata-rata dari setiap pengamatan. Ini kuadrat karena penjumlahannya akan menjadi nol dan kuadrat menghilangkan masalah ini sambil mempertahankan ukuran relatif dari penyimpangan. Masalah dengan menggunakan variasi sebagai ukuran penyebaran adalah bahwa itu dalam satuan kuadrat. Misalnya jika variabel yang kami minati adalah tinggi diukur dalam inci maka varians akan dilaporkan dalam kuadrat-inci yang tidak masuk akal. Deviasi standar (diwakili oleh sigma huruf kecil Yunani) adalah akar kuadrat dari varian dan mengembalikan ukuran penyebaran ke unit asli.

Ketika menggunakan deviasi standar, kita harus berhati-hati terhadap outlier karena mereka akan condongkan deviasi standar (dan rata-rata) karena mereka bukan ukuran penyebaran yang tahan. Contoh sederhana akan menggambarkan properti ini. Rata-rata skor pukulan kriket mengerikan saya dari 13, 14, 16, 23, 26, 28, 33, 39, dan 61 adalah 28,11. Jika kami menganggap 61 sebagai pencilan dan menghapusnya, nilai tengahnya adalah 24.

Graham Cookson
sumber
1
σ2σ
2

Inilah cara saya akan menjawab pertanyaan ini menggunakan diagram.

Katakanlah kita menimbang 30 kucing dan menghitung berat rata-rata. Kemudian kami menghasilkan sebaran plot, dengan bobot pada sumbu y dan identitas kucing pada sumbu x. Berat rata-rata dapat ditarik sebagai garis horizontal. Kita kemudian dapat menggambar dalam garis vertikal yang menghubungkan setiap titik data ke garis rata-rata - ini adalah penyimpangan dari setiap titik data dari rata-rata, dan kami menyebutnya residual. Sekarang, residu ini dapat berguna karena mereka dapat memberi tahu kita sesuatu tentang penyebaran data: jika ada banyak residu besar, maka massa kucing sangat bervariasi. Sebaliknya, jika residu utamanya kecil, maka kucing dikelompokkan cukup dekat di sekitar berat rata-rata. Jadi jika kita dapat memiliki beberapa metrik yang memberi tahu kita rata - ratapanjang sisa dalam kumpulan data ini, ini akan menjadi cara yang berguna untuk menunjukkan berapa banyak penyebaran yang ada dalam data. Deviasi standar adalah, secara efektif, panjang residu rata-rata.

Saya akan melanjutkan dari ini dengan memberikan perhitungan untuk sd, menjelaskan mengapa kita kuadrat dan kemudian kuadrat akar (saya suka penjelasan singkat dan manis Vaibhav). Lalu saya akan menyebutkan masalah outlier, seperti yang dilakukan Graham dalam paragraf terakhirnya.

Freya Harrison
sumber
1

Jika informasi yang diperlukan adalah distribusi data tentang rata-rata, standar deviasi berguna.

Jumlah perbedaan dari setiap nilai dari rata-rata adalah nol (jelas, karena nilai tersebar secara merata di sekitar rata-rata), maka kami mengkuadratkan setiap perbedaan untuk mengubah nilai negatif menjadi positif, menjumlahkannya di seluruh populasi, dan mengambilnya akar pangkat dua. Nilai ini kemudian dibagi dengan jumlah sampel (atau, ukuran populasi). Ini memberikan standar deviasi.

Vaibhav Garg
sumber
".hari itu kita selisih setiap perbedaan ...." Kita bisa mengambil nilai absolut untuk menyingkirkan nilai-nilai negatif juga. Jadi mengapa mengkuadratkan metode yang lebih baik karena kita harus mengambil akar kuadrat pada akhirnya? Mengapa tidak hanya menjumlahkan nilai absolut dari penyimpangan?
Dilip Sarwate
Terlihat yang ini? tautan
Vaibhav Garg
Ya, saya pernah melihat tautan itu sebelumnya. Apakah kamu Saya sepenuhnya mengerti alasan mengapa penggunaan squaring digunakan, sejak saya mempelajarinya45bertahun-tahun lalu. Saya mempertanyakan penggunaan kata Anda yang otoritatif oleh karena itu dalam frasa Anda tanpa indikasi bahwa Anda tahu alasan mengapa jumlah kuadrat digunakan daripada jumlah nilai absolut.
Dilip Sarwate
1
@DilipSarwate, dengan segala hormat, Bukti oleh otoritas tidak membuat saya terkesan. Anggapan bahwa "karenanya" adalah "berwibawa" adalah "Manusia Jerami" yang lebih baik saya abaikan. Tingkat perincian dalam setiap pernyataan yang diberikan sepadan dengan kecenderungan dan / atau signifikansi pedagogis yang sama dalam konteks yang diberikan. Saya berasumsi bahwa seseorang yang bertanya "Apa itu standar deviasi, bagaimana itu .... seterusnya?" mungkin tidak ingin dibebani dengan definisi matematika yang sama. Penyederhanaan disengaja dan, izinkan saya meyakinkan Anda, bukan hasil dari tidak sadar.
Vaibhav Garg
1
Dan apa, doakan katakan, adalah .. "maka kita jujur ​​..." selain bukti oleh otoritas yang tidak membuat Anda terkesan? Tidak ada alasan logis mengapa kuadrat secara otomatis adalah solusi untuk masalah seperti yang Anda impikan.
Dilip Sarwate
1

Saya suka memikirkannya sebagai berikut: standar deviasi adalah jarak rata-rata dari rata-rata . Ini lebih berguna secara konseptual daripada bermanfaat secara matematis, tetapi cara yang bagus untuk menjelaskannya kepada yang belum tahu.

Behacad
sumber
0

Deviasi standar adalah akar kuadrat dari momen sentral kedua dari suatu distribusi. Momen sentral adalah perbedaan yang diharapkan dari nilai distribusi yang diharapkan. Momen sentral pertama biasanya 0, jadi kami mendefinisikan momen sentral kedua sebagai nilai yang diharapkan dari jarak kuadrat dari variabel acak dari nilai yang diharapkan.

Untuk menempatkannya pada skala yang lebih sesuai dengan pengamatan asli, kita mengambil akar kuadrat dari momen sentral kedua itu dan menyebutnya deviasi standar.

Simpangan baku adalah properti suatu populasi. Ini mengukur seberapa banyak "dispersi" rata-rata yang ada pada populasi itu. Apakah semua terobsesi berkerumun di sekitar rata-rata, atau tersebar luas?

Untuk memperkirakan standar deviasi suatu populasi, kita sering menghitung standar deviasi "sampel" dari populasi itu. Untuk melakukan ini, Anda mengambil pengamatan dari populasi itu, menghitung rata-rata dari pengamatan itu, dan kemudian menghitung akar kuadrat dari rata-rata penyimpangan kuadrat dari "mean sampel" itu.

Untuk mendapatkan penaksir yang tidak bias dari varians, Anda tidak benar-benar menghitung deviasi kuadrat rata-rata dari mean sampel, tetapi sebaliknya, Anda membaginya dengan (N-1) dengan N adalah jumlah pengamatan dalam sampel Anda. Perhatikan bahwa "standar deviasi sampel" ini bukan penaksir yang tidak bias dari standar deviasi, tetapi kuadrat dari "standar deviasi sampel" adalah penaksir yang tidak bias dari varian populasi.

Baltimark
sumber
6
ini adalah respons yang sangat tidak jelas. Silakan coba menulis dalam bahasa Inggris.
Neil McGuigan
1
mungkin begitu. adalah orang yang menanyakan pertanyaan ini orang yang berjalan di jalanan, atau orang yang setidaknya membuka buku statistik. Memberitahu seseorang deviasi standar hanyalah akar kuadrat dari varians yang sepenuhnya memunculkan pertanyaan.
Baltimark
-1

Cara terbaik yang saya mengerti deviasi standar adalah memikirkan seorang penata rambut! (Anda perlu mengumpulkan data dari penata rambut dan meningkatkan kecepatan memotong rambutnya agar contoh ini berhasil.)

Diperlukan rata-rata 30 menit bagi penata rambut untuk memotong rambut orang.

Misalkan Anda melakukan perhitungan (sebagian besar paket perangkat lunak akan melakukan ini untuk Anda) dan Anda menemukan bahwa standar deviasi adalah 5 menit. Artinya adalah sebagai berikut:

  • penata rambut memotong 68% rambut kliennya dalam waktu 25 menit dan 35 menit
  • penata rambut memotong rambut 96% dari kliennya dalam waktu 20 dan 40 menit

Bagaimana saya tahu ini? Anda perlu melihat kurva normal, di mana 68% jatuh dalam 1 standar deviasi dan 96% berada dalam 2 standar deviasi dari rata-rata (dalam hal ini 30 menit). Jadi, Anda menambah atau mengurangi standar deviasi dari mean.

Jika konsistensi diinginkan, seperti dalam kasus ini, maka semakin kecil standar deviasi, semakin baik. Dalam hal ini, penata rambut menghabiskan waktu maksimum sekitar 40 menit dengan klien mana pun. Anda perlu memotong rambut dengan cepat untuk menjalankan salon yang sukses!

Adhesh Josh
sumber
Saya tidak berpikir Anda mengoreksi jawaban Anda, Adhesh. Anda punya beberapa informasi kontradiktif di sini. Lihat apakah Anda setuju dengan suntingan saya, ok?
rolando2
1
Anda hanya menggambarkan interpretasi standar deviasi dalam kasus distribusi normal. '68% aturan 'dan (dan 95% aturan) hanya berlaku untuk data yang didistribusikan secara normal. Setidaknya nyatakan bahwa kedua poin tersebut hanya benar jika waktu pemotongan rambut mengikuti distribusi normal.
Makro
Makro, saya memang menyebutkan kurva normal dan itu diberikan bahwa jika Anda menggunakan kurva normal, data akan mengikuti distribusi normal.
Adhesh Josh
@ rolando2 Sepertinya saya tidak mengerti apa yang salah dengan penjelasan Adhesh
Amarald
@Amarald - sudahkah Anda mengklik "Jan 31 at 1:06" untuk melihat versi sebelum dan sesudah diedit? Saya pikir jawabannya lebih kuat setelah itu, meskipun Makro membuat poin penting juga.
rolando2