Saya mencoba untuk mendapatkan pemahaman intuitif standar deviasi yang lebih baik.
Dari apa yang saya pahami, ini mewakili rata-rata perbedaan dari satu set pengamatan dalam satu set data dari rata-rata set data tersebut. Namun sebenarnya BUKAN sama dengan rata-rata perbedaan karena memberikan bobot lebih untuk pengamatan lebih jauh dari rata-rata.
Katakanlah saya memiliki populasi nilai berikut -
Maksudnya adalah .
Jika saya mengambil spread berdasarkan nilai absolut yang saya dapatkan
Jika saya mengukur penyebaran berdasarkan menggunakan standar deviasi saya dapatkan
Hasil menggunakan standar deviasi lebih besar, seperti yang diharapkan, karena bobot ekstra yang diberikannya pada nilai lebih jauh dari nilai tengah.
Tetapi jika saya hanya diberitahu bahwa saya berurusan dengan populasi dengan rata-rata dan standar deviasi bagaimana saya dapat menyimpulkan bahwa populasi terdiri dari nilai-nilai seperti ? Sepertinya angka sangat sewenang-wenang ... Saya tidak melihat bagaimana Anda seharusnya menafsirkannya. Apakah berarti nilai-nilai tersebar sangat luas atau mereka semua berkerumun di sekitar ...2.83 { 1 , 3 , 5 , 7 , 9 } 2.83 2.83
Ketika Anda disajikan dengan pernyataan bahwa Anda berurusan dengan populasi dengan rata-rata dan standar deviasi apa artinya itu tentang populasi?2.83
sumber
Jawaban:
Intuisi saya adalah bahwa standar deviasi adalah: ukuran penyebaran data.
Anda memiliki poin yang baik apakah itu lebar, atau ketat tergantung pada apa yang mendasari asumsi kami adalah untuk distribusi data.
Peringatan: Ukuran penyebaran sangat membantu ketika distribusi data Anda simetris di sekitar rata-rata dan memiliki varians yang relatif dekat dengan distribusi Normal. (Ini berarti kira-kira Normal.)
Dalam kasus di mana data mendekati Normal, deviasi standar memiliki interpretasi kanonik:
(lihat grafik pertama di Wiki )
Ini berarti bahwa jika kita tahu rata-rata populasi adalah 5 dan standar deviasi adalah 2,83 dan kami berasumsi distribusinya mendekati Normal, saya akan memberi tahu Anda bahwa saya cukup yakin bahwa jika kita melakukan banyak pengamatan, hanya 5% yang akan lebih kecil dari 0,4 = 5 - 2 * 2,3 atau lebih besar dari 9,6 = 5 + 2 * 2.3.
Perhatikan apa dampak deviasi standar terhadap interval kepercayaan kita? (Semakin banyak spread, semakin banyak ketidakpastian)
Lebih jauh lagi, dalam kasus umum di mana data bahkan tidak mendekati normal, tetapi masih simetris, Anda tahu bahwa ada beberapa yang:α
Anda dapat mempelajari dari sub-sampel, atau mengasumsikan dan ini memberi Anda aturan praktis yang baik untuk menghitung di kepala Anda apa pengamatan yang akan datang, atau pengamatan baru mana yang dapat dianggap sebagai pencilan. (Ingatlah peringatannya!)α = 2α α=2
Saya kira setiap pertanyaan yang menanyakan "lebar atau ketat", juga harus mengandung: "dalam kaitannya dengan apa?". Salah satu saran mungkin menggunakan distribusi yang terkenal sebagai referensi. Bergantung pada konteksnya, mungkin berguna untuk memikirkan: "Apakah jauh lebih lebar, atau lebih rapat daripada Normal / Poisson?".
EDIT: Berdasarkan petunjuk yang berguna dalam komentar, satu lagi aspek tentang standar deviasi sebagai pengukur jarak.
Namun intuisi lain tentang kegunaan dari standar deviasi adalah bahwa itu adalah ukuran jarak antara data sampel dan rerata :x 1 , … , x N ˉ xsN x1,…,xN x¯
Sebagai perbandingan, mean squared error (MSE), salah satu ukuran kesalahan paling populer dalam statistik, didefinisikan sebagai:
Pertanyaan yang bisa diajukan mengapa fungsi jarak di atas? Mengapa kuadrat jarak, dan bukan jarak absolut misalnya? Dan mengapa kita mengambil akar kuadrat?
Memiliki jarak kuadratik, atau kesalahan, fungsi memiliki keuntungan yang bisa kita bedakan dan mudah meminimalkannya. Sejauh menyangkut akar kuadrat, ia menambah interpretabilitas karena mengubah kesalahan kembali ke skala data yang kami amati.
sumber
Mungkin membantu untuk menyadari bahwa nilai tengahnya analog dengan pusat massa . Perbedaannya adalah momen inersia . Simpangan baku adalah jari - jari putaran .
Untuk perspektif sejarah, lihat:
George Airy (1875) Tentang teori aljabar dan numerik tentang kesalahan pengamatan dan kombinasi pengamatan
Karl Pearson (1894) Kontribusi Terhadap Teori Matematika Evolusi.
Plot dari Airy 1875 ini menunjukkan berbagai ukuran penyimpangan yang mudah dipertukarkan (halaman 17). Simpangan baku disebut "error of mean square". Hal ini juga dibahas pada halaman 20-21 dan ia membenarkan penggunaannya pada halaman 48, menunjukkan bahwa lebih mudah untuk menghitung dengan tangan karena tidak perlu untuk perhitungan terpisah dari kesalahan negatif dan positif. Istilah standar deviasi diperkenalkan oleh Pearson dalam makalah yang dikutip di atas pada halaman 75.
Sebagai tambahan: Perhatikan bahwa utilitas standar deviasi tergantung pada penerapan "hukum kesalahan", juga dikenal sebagai "kurva normal", yang muncul dari "banyak sekali penyebab independen kesalahan" (Airy 1875 pg 7). Tidak ada alasan untuk berharap bahwa penyimpangan dari rata-rata kelompok masing-masing individu harus mengikuti hukum ini. Dalam banyak kasus untuk sistem biologis, distribusi log normal adalah asumsi yang lebih baik daripada normal. Lihat:
Limpert et al (2001) Distribusi Log-normal lintas Ilmu: Kunci dan Petunjuk
Lebih lanjut dipertanyakan apakah pantas untuk memperlakukan variasi individu sebagai noise, karena proses pembuatan data bertindak pada level individu dan bukan kelompok.
sumber
Deviasi standar memang memberikan bobot lebih bagi mereka yang lebih jauh dari rata-rata, karena itu adalah akar kuadrat dari rata-rata jarak kuadrat. Alasan untuk menggunakan ini (daripada rata-rata deviasi absolut yang Anda usulkan, atau median deviasi absolut, yang digunakan dalam statistik yang kuat) sebagian disebabkan oleh fakta bahwa kalkulus memiliki waktu yang lebih mudah dengan polinomial daripada dengan nilai absolut. Namun, seringkali, kami ingin menekankan nilai-nilai ekstrim.
Adapun pertanyaan Anda tentang makna intuitif - itu berkembang dari waktu ke waktu. Anda benar bahwa lebih dari satu set angka dapat memiliki mean dan sd yang sama; ini karena mean dan sd hanya dua informasi, dan kumpulan data mungkin 5 buah (1,3,5,7,9) atau lebih.
Apakah rata-rata 5 dan sd dari 2,83 adalah "lebar" atau "sempit" tergantung pada bidang tempat Anda bekerja.
Bila Anda hanya memiliki 5 angka, mudah untuk melihat daftar lengkapnya; ketika Anda memiliki banyak angka, cara berpikir yang lebih intuitif tentang penyebaran mencakup hal-hal seperti ringkasan lima angka atau, lebih baik lagi, grafik seperti plot kepadatan.
sumber
Simpangan baku mengukur jarak populasi Anda dari mean sebagai variabel acak.
Alasan kita beralih ke fungsi dan mengukur teori adalah karena kita perlu memiliki cara sistematis untuk membahas bagaimana dua ruang probabilitas sama hingga peristiwa yang tidak memiliki peluang terjadi. Sekarang kita telah pindah ke fungsi, kita membutuhkan rasa jarak.
sumber