Intuisi di balik standar deviasi

26

Saya mencoba untuk mendapatkan pemahaman intuitif standar deviasi yang lebih baik.

Dari apa yang saya pahami, ini mewakili rata-rata perbedaan dari satu set pengamatan dalam satu set data dari rata-rata set data tersebut. Namun sebenarnya BUKAN sama dengan rata-rata perbedaan karena memberikan bobot lebih untuk pengamatan lebih jauh dari rata-rata.

Katakanlah saya memiliki populasi nilai berikut -{1,3,5,7,9}

Maksudnya adalah .5

Jika saya mengambil spread berdasarkan nilai absolut yang saya dapatkan

i=15|xiμ|5=2.4

Jika saya mengukur penyebaran berdasarkan menggunakan standar deviasi saya dapatkan

i=15(xiμ)25=2.83

Hasil menggunakan standar deviasi lebih besar, seperti yang diharapkan, karena bobot ekstra yang diberikannya pada nilai lebih jauh dari nilai tengah.

Tetapi jika saya hanya diberitahu bahwa saya berurusan dengan populasi dengan rata-rata dan standar deviasi bagaimana saya dapat menyimpulkan bahwa populasi terdiri dari nilai-nilai seperti ? Sepertinya angka sangat sewenang-wenang ... Saya tidak melihat bagaimana Anda seharusnya menafsirkannya. Apakah berarti nilai-nilai tersebar sangat luas atau mereka semua berkerumun di sekitar ...2.83 { 1 , 3 , 5 , 7 , 9 } 2.83 2.8352.83{1,3,5,7,9}2.832.83

Ketika Anda disajikan dengan pernyataan bahwa Anda berurusan dengan populasi dengan rata-rata dan standar deviasi apa artinya itu tentang populasi?2.8352.83

sonicboom
sumber
2
Ini pertanyaan terkait (meskipun tidak identik) untuk stats.stackexchange.com/q/81986/3277 dan satu lagi terkait dengan ada.
ttnphns
1
Ini memberi tahu Anda jarak 'tipikal' dari rata-rata (jarak RMS). Apa yang membuat 'besar' atau 'kecil' tergantung pada kriteria Anda . Jika Anda mencoba mengukur toleransi rekayasa, mungkin besar. Dalam konteks lain, standar deviasi yang sama dapat dianggap cukup kecil.
Glen_b -Reinstate Monica

Jawaban:

13

Intuisi saya adalah bahwa standar deviasi adalah: ukuran penyebaran data.

Anda memiliki poin yang baik apakah itu lebar, atau ketat tergantung pada apa yang mendasari asumsi kami adalah untuk distribusi data.

Peringatan: Ukuran penyebaran sangat membantu ketika distribusi data Anda simetris di sekitar rata-rata dan memiliki varians yang relatif dekat dengan distribusi Normal. (Ini berarti kira-kira Normal.)

Dalam kasus di mana data mendekati Normal, deviasi standar memiliki interpretasi kanonik:

  • Wilayah: Sampel rata-rata +/- 1 standar deviasi, berisi sekitar 68% dari data
  • Wilayah: Sampel rata-rata +/- 2 standar deviasi, berisi sekitar 95% dari data
  • Wilayah: Sampel rata-rata +/- 3 standar deviasi, berisi sekitar 99% dari data

(lihat grafik pertama di Wiki )

Ini berarti bahwa jika kita tahu rata-rata populasi adalah 5 dan standar deviasi adalah 2,83 dan kami berasumsi distribusinya mendekati Normal, saya akan memberi tahu Anda bahwa saya cukup yakin bahwa jika kita melakukan banyak pengamatan, hanya 5% yang akan lebih kecil dari 0,4 = 5 - 2 * 2,3 atau lebih besar dari 9,6 = 5 + 2 * 2.3.

Perhatikan apa dampak deviasi standar terhadap interval kepercayaan kita? (Semakin banyak spread, semakin banyak ketidakpastian)

Lebih jauh lagi, dalam kasus umum di mana data bahkan tidak mendekati normal, tetapi masih simetris, Anda tahu bahwa ada beberapa yang:α

  • Wilayah: Contoh rata-rata +/- deviasi standar , mengandung kira-kira 95% dari dataα

Anda dapat mempelajari dari sub-sampel, atau mengasumsikan dan ini memberi Anda aturan praktis yang baik untuk menghitung di kepala Anda apa pengamatan yang akan datang, atau pengamatan baru mana yang dapat dianggap sebagai pencilan. (Ingatlah peringatannya!)α = 2αα=2

Saya tidak mengerti bagaimana Anda seharusnya menafsirkannya. Apakah 2,83 berarti nilai-nilai tersebar sangat luas atau mereka semua berkerumun di sekitar rata-rata ...

Saya kira setiap pertanyaan yang menanyakan "lebar atau ketat", juga harus mengandung: "dalam kaitannya dengan apa?". Salah satu saran mungkin menggunakan distribusi yang terkenal sebagai referensi. Bergantung pada konteksnya, mungkin berguna untuk memikirkan: "Apakah jauh lebih lebar, atau lebih rapat daripada Normal / Poisson?".

EDIT: Berdasarkan petunjuk yang berguna dalam komentar, satu lagi aspek tentang standar deviasi sebagai pengukur jarak.

Namun intuisi lain tentang kegunaan dari standar deviasi adalah bahwa itu adalah ukuran jarak antara data sampel dan rerata :x 1 , , x N ˉ xsNx1,,xNx¯

sN=1Ni=1N(xix¯)2

Sebagai perbandingan, mean squared error (MSE), salah satu ukuran kesalahan paling populer dalam statistik, didefinisikan sebagai:

MSE=1ni=1n(Yi^Yi)2

Pertanyaan yang bisa diajukan mengapa fungsi jarak di atas? Mengapa kuadrat jarak, dan bukan jarak absolut misalnya? Dan mengapa kita mengambil akar kuadrat?

Memiliki jarak kuadratik, atau kesalahan, fungsi memiliki keuntungan yang bisa kita bedakan dan mudah meminimalkannya. Sejauh menyangkut akar kuadrat, ia menambah interpretabilitas karena mengubah kesalahan kembali ke skala data yang kami amati.

berarti-untuk-makna
sumber
Mengapa Anda mengatakan bahwa ukuran penyebaran paling 'membantu' ketika data normal? Menurut saya, set data apa pun memiliki spread dan deviasi standar adalah ringkasan dari spread, bahkan jika itu tidak menangkap bentuk spread.
Michael Lew
Tentu Anda benar. Tetapi saya tidak mengklaim bahwa standar deviasi tergantung pada bentuk distribusinya. Hanya menunjukkan bahwa JIKA Anda memiliki pengetahuan tentang bentuk (atau Anda siap untuk membuat asumsi ini), biasanya informasi yang jauh lebih bermanfaat. Dengan cara yang sama, mean sampel adalah deskriptor yang baik dari data Anda, JIKA Anda dapat membuat asumsi umum tertentu tentang distribusi.
means-to-meaning
Alasan favorit saya untuk menggunakan kuadrat daripada nilai absolut adalah karena itu adalah logaritma probabilitas beberapa Gaussian. Jadi, jika Anda percaya bahwa kesalahan bersifat Gaussian, dan bahwa bit adalah cara yang baik untuk mengukur informasi, maka masuk akal untuk menggunakan kesalahan kuadrat.
qbolec
5

Mungkin membantu untuk menyadari bahwa nilai tengahnya analog dengan pusat massa . Perbedaannya adalah momen inersia . Simpangan baku adalah jari - jari putaran .

Untuk perspektif sejarah, lihat:

George Airy (1875) Tentang teori aljabar dan numerik tentang kesalahan pengamatan dan kombinasi pengamatan

Karl Pearson (1894) Kontribusi Terhadap Teori Matematika Evolusi.

Plot dari Airy 1875 ini menunjukkan berbagai ukuran penyimpangan yang mudah dipertukarkan (halaman 17). Simpangan baku disebut "error of mean square". Hal ini juga dibahas pada halaman 20-21 dan ia membenarkan penggunaannya pada halaman 48, menunjukkan bahwa lebih mudah untuk menghitung dengan tangan karena tidak perlu untuk perhitungan terpisah dari kesalahan negatif dan positif. Istilah standar deviasi diperkenalkan oleh Pearson dalam makalah yang dikutip di atas pada halaman 75.

masukkan deskripsi gambar di sini

Sebagai tambahan: Perhatikan bahwa utilitas standar deviasi tergantung pada penerapan "hukum kesalahan", juga dikenal sebagai "kurva normal", yang muncul dari "banyak sekali penyebab independen kesalahan" (Airy 1875 pg 7). Tidak ada alasan untuk berharap bahwa penyimpangan dari rata-rata kelompok masing-masing individu harus mengikuti hukum ini. Dalam banyak kasus untuk sistem biologis, distribusi log normal adalah asumsi yang lebih baik daripada normal. Lihat:

Limpert et al (2001) Distribusi Log-normal lintas Ilmu: Kunci dan Petunjuk

Lebih lanjut dipertanyakan apakah pantas untuk memperlakukan variasi individu sebagai noise, karena proses pembuatan data bertindak pada level individu dan bukan kelompok.

Marah
sumber
3

Deviasi standar memang memberikan bobot lebih bagi mereka yang lebih jauh dari rata-rata, karena itu adalah akar kuadrat dari rata-rata jarak kuadrat. Alasan untuk menggunakan ini (daripada rata-rata deviasi absolut yang Anda usulkan, atau median deviasi absolut, yang digunakan dalam statistik yang kuat) sebagian disebabkan oleh fakta bahwa kalkulus memiliki waktu yang lebih mudah dengan polinomial daripada dengan nilai absolut. Namun, seringkali, kami ingin menekankan nilai-nilai ekstrim.

Adapun pertanyaan Anda tentang makna intuitif - itu berkembang dari waktu ke waktu. Anda benar bahwa lebih dari satu set angka dapat memiliki mean dan sd yang sama; ini karena mean dan sd hanya dua informasi, dan kumpulan data mungkin 5 buah (1,3,5,7,9) atau lebih.

Apakah rata-rata 5 dan sd dari 2,83 adalah "lebar" atau "sempit" tergantung pada bidang tempat Anda bekerja.

Bila Anda hanya memiliki 5 angka, mudah untuk melihat daftar lengkapnya; ketika Anda memiliki banyak angka, cara berpikir yang lebih intuitif tentang penyebaran mencakup hal-hal seperti ringkasan lima angka atau, lebih baik lagi, grafik seperti plot kepadatan.

Peter Flom - Pasang kembali Monica
sumber
2

Simpangan baku mengukur jarak populasi Anda dari mean sebagai variabel acak.

X:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

Alasan kita beralih ke fungsi dan mengukur teori adalah karena kita perlu memiliki cara sistematis untuk membahas bagaimana dua ruang probabilitas sama hingga peristiwa yang tidak memiliki peluang terjadi. Sekarang kita telah pindah ke fungsi, kita membutuhkan rasa jarak.

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

5_t5

d2

SomeEE
sumber
[0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15
Ya, variabel acak yang Anda daftarkan adalah standar untuk mereka yang nyaman dengan teori ukuran. Saya berharap mempersempitnya untuk memahami fungsi dan integrasi bagi orang-orang dengan latar belakang kalkulus. Saya akan menulis ulang mean sebagai fungsi.
SomeEE
d2
L2d2