Berarti deviasi absolut vs standar deviasi

35

Dalam buku teks "Matematika Komprehensif Baru untuk Level O" oleh Greer (1983), saya melihat penyimpangan rata-rata dihitung seperti ini:

Ringkas perbedaan absolut antara nilai tunggal dan rata-rata. Kemudian dapatkan rata-rata. Sepanjang bab istilah mean deviasi digunakan.

Tetapi saya baru saja melihat beberapa referensi yang menggunakan istilah standar deviasi dan inilah yang mereka lakukan:

Hitung kuadrat perbedaan antara nilai-nilai tunggal dan rata-rata. Kemudian dapatkan rata-rata dan akhirnya akar jawabannya.

Saya mencoba kedua metode pada kumpulan data umum dan jawaban mereka berbeda. Saya bukan ahli statistik. Saya bingung ketika mencoba mengajarkan penyimpangan kepada anak-anak saya.

Jadi singkatnya, apakah istilah standar deviasi dan rata - rata penyimpangan sama atau apakah buku teks lama saya salah?

itsol
sumber
2
Dua kuantitas berbeda. Mereka menimbang data secara berbeda. Deviasi standar akan lebih besar, dan itu relatif lebih dipengaruhi oleh nilai yang lebih besar. Deviasi standar (paling khusus, versi n-penyebut) dapat dianggap sebagai deviasi root-mean-square. Penyimpangan standar lebih umum digunakan.
Glen_b -Reinstate Monica
6
Sangat terkait erat : stats.stackexchange.com/questions/118/… .
whuber
Gary Kader memiliki cara yang menyenangkan untuk mengajar anak-anak untuk mendapatkan penyimpangan absolut yang berarti .
Iain Samuel McLean Penatua
1
Secara kebetulan, salah satu alasan mengapa orang cenderung lebih menyukai deviasi standar adalah karena variasi jumlah variabel acak yang tidak berhubungan bertambah (dan yang terkait juga memiliki rumus sederhana). Itu tidak terjadi dengan penyimpangan berarti.
Glen_b -Reinstate Monica
2
@Alexis frasa itu buruk. Untuk variabel acak independen, Var (X + Y) = Var (X) + Var (Y). Fakta ini digunakan di semua tempat (itu mengarah pada istilah ketika membakukan rumus yang melibatkan cara, seperti dalam t-statistik satu sampel misalnya). Tidak ada fakta umum yang sesuai untuk penyimpangan rata-rata. n
Glen_b -Reinstate Monica

Jawaban:

27

Keduanya menjawab seberapa jauh nilai-nilai Anda tersebar di sekitar rata-rata pengamatan.

Pengamatan yang 1 di bawah rata-rata sama "jauh" dari nilai rata-rata sebagai 1 di atas rata-rata. Karena itu Anda harus mengabaikan tanda penyimpangan. Ini dapat dilakukan dengan dua cara:

  • Hitung nilai absolut dari penyimpangan dan jumlah ini.

  • Kuadratkan penyimpangan dan jumlah kotak ini. Karena kuadrat, Anda memberikan bobot lebih untuk penyimpangan tinggi, dan karenanya jumlah kotak ini akan berbeda dari jumlah rata-rata.

Setelah menghitung "jumlah deviasi absolut" atau "akar kuadrat dari jumlah deviasi kuadrat", Anda rata-rata untuk mendapatkan "rata-rata penyimpangan" dan "deviasi standar" masing-masing.

Penyimpangan rata-rata jarang digunakan.

Kasper
sumber
Jadi ketika seseorang mengatakan 'penyimpangan', apakah yang mereka maksud adalah 'standar deviasi'?
itsol
Saya setuju bahwa 1 di atas atau di bawah akan menunjukkan 'perubahan' atau 'dispersi' yang berarti dari sudut pandang orang awam. Tetapi mengkuadratkannya akan memberikan nilai lebih besar dan itu mungkin bukan 'perubahan aktual' saya. Mungkin saya salah tapi itulah yang saya lihat: /
itsols
Sebagian besar kali istilah standar deviasi (akar kuadrat varians) digunakan. Menghitung kotak biasanya dilakukan, karena memfasilitasi banyak perhitungan lainnya.
Kasper
1
@itsols Secara teknis, Anda harus selalu menentukan jenis statistik deviasi yang Anda hitung untuk kumpulan data - kata deviasi sendiri harus merujuk pada deviasi dari satu titik data dari mean (dalam cara Kasper menggunakannya dalam jawaban) ).
AmeliaBR
@itsols, +1 ke Amelia. Memang, tidak ada yang mengatakan statistik dataset hanya sebagai "penyimpangan". Statistik adalah "deviasi absolut rata-rata" atau "akar deviasi kuadrat rata-rata" atau semacamnya.
ttnphns
15

Hari ini, nilai statistik sebagian besar dihitung oleh program komputer (Excel, ...), bukan oleh kalkulator genggam lagi. Oleh karena itu, saya berpendapat bahwa menghitung "penyimpangan rata-rata" tidak lebih rumit daripada menghitung "penyimpangan standar". Meskipun standar deviasi mungkin memiliki "... sifat matematika yang membuatnya lebih berguna dalam statistik", itu, pada kenyataannya, merupakan penyimpangan konsep varians dari rata-rata, karena memberikan bobot tambahan ke titik data jauh dari rata-rata. Mungkin butuh waktu, tetapi saya, untuk satu, harapan ahli statistik berevolusi kembali ke menggunakan "penyimpangan rata-rata" lebih sering ketika membahas distribusi antara poin data - itu lebih akurat mewakili bagaimana kita benar-benar berpikir tentang distribusi.

andyl
sumber
Anda membuat klaim luar biasa tentang bagaimana orang (secara statistik memenuhi syarat) "benar-benar berpikir." Apa sumber informasi Anda tentang itu?
Whuber
7
Sumbernya hanyalah orang-orang yang telah saya tanyakan tentang topik ini, juga saya sendiri. Ketika ditanya: Bagaimana Anda menggambarkan variasi dalam kumpulan data ini? responsnya selalu dinyatakan dalam jarak linear dari mean - responsnya tidak pernah termasuk kuadrat atau akar kuadrat. Memang, saya seorang insinyur, bukan "ahli statistik", tetapi saya akan meminta orang lain untuk menantang diri mereka sendiri tentang topik ini. Ya, kami menyukai matematika deviasi standar - ini menyenangkan, tetapi apakah ini benar-benar bagaimana Anda menggambarkan deviasi dari mean?
andyl
2
Itu tergantung tujuannya. Untuk eksplorasi data, saya cenderung menggunakan estimasi dispersi yang kuat dan berbasis pangkat, seperti penyimpangan median dari median, yang dalam semangat dekat dengan proposal Anda. Tetapi untuk banyak pekerjaan lain, terutama ketika menilai (bahkan secara mental) potensi signifikansi statistik, memperkirakan ukuran sampel yang tepat, mencari tahu nilai informasi, dan memutuskan di antara prosedur statistik yang bersaing, berpikir dalam hal varian (dan karenanya penyimpangan standar) adalah penting. Penyimpangan rata-rata bukanlah pengganti, seperti yang ditunjukkan oleh matematika dengan jelas.
Whuber
1
Lihatlah makalah ini .
Pete
@ Jalan Bagaimana Anda sampai di sana?
Vicrobot
9

Mereka berdua mengukur konsep yang sama, tetapi tidak sama.

Anda membandingkandengan . Mereka tidak sama karena dua alasan:1n|xix¯|1n(xix¯)2

Pertama - tama , operator root-persegi tidak linear, atau . Oleh karena itu jumlah deviasi absolut tidak sama dengan akar kuadrat dari jumlah deviasi kuadrat, meskipun fungsi absolut dapat direpresentasikan sebagai fungsi kuadrat diikuti oleh akar kuadrat: sebagai akar kuadrat diambil setelah jumlah telah dihitung. ¢| xi- ˉ x | =a+ba+b
|xix¯|=(xix¯)2(xix¯)2

Kedua , sekarang juga berada di bawah akar kuadrat dalam perhitungan standar deviasi.n

Coba hitung - itu akan menghasilkan jawaban yang sama dengan rata-rata penyimpangan dan membantu Anda untuk memahami.1n(xix¯)2

Alasan mengapa standar deviasi lebih disukai adalah karena secara matematis lebih mudah untuk digunakan nanti, ketika perhitungan menjadi lebih rumit.

ltronneberg
sumber
3
Nilai absolut dari jumlah tidak , secara umum, sama dengan jumlah nilai absolut! Baik kuadrat, akar kuadrat, maupun fungsi absolut adalah linier, itulah sebabnya jumlah setelah menerapkan fungsi berbeda dari penerapan fungsi setelah mengambil jumlah.
AmeliaBR
@ AmeliaBR Anda tentu saja benar!
ltronneberg
Namun, sisa argumennya bagus, itulah sebabnya saya memutuskan untuk mengedit pernyataan yang bermasalah itu.
AmeliaBR
8

@itsols, saya akan menambahkan gagasan penting Kasper itu The mean deviation is rarely used. Mengapa standar deviasi dianggap sebagai ukuran variabilitas yang lebih baik daripada rata-rata deviasi absolut? Karena mean aritmatika adalah lokus jumlah minimal penyimpangan kuadrat (dan bukan jumlah absolut) darinya.

Misalkan Anda ingin menilai tingkat altruisme. Maka Anda mungkin tidak akan bertanya kepada seseorang tentang seberapa banyak ia siap memberikan uang dalam "situasi umum" kehidupan. Sebaliknya, Anda akan memilih untuk bertanya berapa banyak dia siap untuk melakukannya dalam situasi terbatas, di mana ia memiliki sumber daya seminimal mungkin untuk hidupnya sendiri. Yaitu berapa jumlah altruisme individu dalam situasi ketika jumlah itu minimal individu?

Demikian juga, apa tingkat variabilitas data ini? Secara intuitif, indeks pengukuran terbaik untuk itu adalah indeks yang diminimalkan (atau dimaksimalkan) hingga batas dalam konteks ini. Konteksnya adalah "sekitar rata-rata aritmatika". Lalu st. deviasi adalah pilihan terbaik dalam pengertian ini. Jika konteksnya "sekitar median" maka berarti | deviasi | akan menjadi pilihan terbaik, karena median adalah lokus dari jumlah minimal penyimpangan absolut darinya.

ttnphns
sumber
4
Pembenaran Anda untuk SD berdasarkan Locus adalah edaran. Anda membenarkan SD dengan mengutamakan rata-rata aritmatika - semua ini menunjukkan bahwa mereka memiliki hubungan, bukan SD yang istimewa. Orang juga dapat menempatkan kepentingan pada median, yang merupakan lokus jumlah minimal kehilangan absalute . Alasan sebenarnya mengapa SD lebih sering digunakan adalah karena matematika lebih mudah untuk dikerjakan ... lebih lanjut, lebih mudah secara komputasi (keduanya karena median membutuhkan "penyortiran", dan karena kuadrat lebih cepat untuk dikomputasi daripada pernyataan cabang). Secara filosofis, penyimpangan absalute memiliki nilai lebih besar.
samthebest
7

Satu hal yang patut ditambahkan adalah bahwa alasan yang paling mungkin mengapa buku teks Anda yang berusia 30 tahun menggunakan deviasi rata-rata absolut sebagai lawan dari standar deviasi adalah bahwa lebih mudah untuk menghitung dengan tangan (tidak ada kuadrat / akar kuadrat). Sekarang kalkulator sudah dapat diakses oleh siswa sekolah menengah, tidak ada alasan untuk tidak meminta mereka menghitung standar deviasi.

Masih ada beberapa situasi di mana penyimpangan absolut digunakan sebagai ganti penyimpangan standar dalam pemasangan model yang rumit. Deviasi absolut kurang sensitif terhadap outlier ekstrim (nilai jauh dari mean / trendline) dibandingkan dengan deviasi standar karena mereka tidak kuadratkan jarak itu sebelum menambahkannya ke nilai-nilai dari titik data lainnya. Karena metode penyetelan model bertujuan untuk mengurangi penyimpangan total dari garis tren (sesuai dengan penyimpangan metode mana saja yang dihitung), metode yang menggunakan deviasi standar dapat berakhir dengan menciptakan garis tren yang menyimpang dari mayoritas poin agar lebih dekat dengan pencilan. . Menggunakan penyimpangan absolut mengurangi distorsi ini, tetapi dengan biaya membuat perhitungan garis tren lebih rumit.

Itu karena, seperti yang telah dicatat orang lain, standar deviasi memiliki sifat matematika dan hubungan yang umumnya membuatnya lebih berguna dalam statistik. Tetapi "bermanfaat" tidak harus dikacaukan dengan sempurna.

AmeliaBR
sumber
1
hanya ingin tahu, apa "sifat matematika" yang membuat SD lebih bermanfaat daripada rata-rata penyimpangan absolut? Jawaban yang sangat bagus.
Weipeng L
@pongba Standar deviasi adalah intrinsik bagi banyak model statistik yang mengasumsikan variasi acak dari berbagai efek yang dapat membatalkan satu sama lain (alias, data yang didistribusikan secara normal). Ini termasuk akurasi pengambilan sampel (margin of error) ketika menggunakan survei dari populasi besar. Jika data Anda memenuhi model ini, Anda dapat memperkirakan probabilitas mendapatkan nilai dari jumlah SD dari rata-rata. Anda dapat menghitung SD beberapa efek independen dari SD komponen individu. Lihat juga: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR
7

Keduanya mengukur dispersi data Anda dengan menghitung jarak data dengan rata-ratanya.

  1. deviasi absolut rata - rata menggunakan norma L1 (juga disebut jarak Manhattan atau jarak bujursangkar )
  2. yang standar deviasi menggunakan norma L2 (juga disebut jarak Euclidean )

Perbedaan antara dua norma adalah bahwa standar deviasi menghitung kuadrat dari perbedaan sedangkan rata - rata deviasi absolut hanya melihat perbedaan absolut. Oleh karena itu pencilan besar akan membuat dispersi yang lebih tinggi ketika menggunakan standar deviasi daripada metode lainnya. Jarak Euclidean memang juga lebih sering digunakan. Alasan utamanya adalah standar deviasimemiliki sifat yang bagus saat data terdistribusi secara normal. Jadi berdasarkan asumsi ini, disarankan untuk menggunakannya. Namun orang sering melakukan asumsi ini untuk data yang sebenarnya tidak terdistribusi normal yang menimbulkan masalah. Jika data Anda tidak terdistribusi normal, Anda masih dapat menggunakan standar deviasi, tetapi Anda harus berhati-hati dengan interpretasi hasil.

Akhirnya Anda harus tahu bahwa kedua ukuran dispersi adalah kasus khusus dari jarak Minkowski , untuk p = 1 dan p = 2. Anda dapat meningkatkan p untuk mendapatkan ukuran lain dari penyebaran data Anda.

RockScience
sumber
Ada juga pos di math.stackexchange tentang topik ini: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience
6

Mereka adalah tindakan serupa yang mencoba untuk mengukur gagasan yang sama. Biasanya Anda menggunakan st. penyimpangan karena memiliki sifat yang bagus, jika Anda membuat asumsi tentang distribusi yang mendasarinya.

Di sisi lain nilai absolut dalam penyimpangan rata-rata menyebabkan beberapa masalah dari perspektif matematika karena Anda tidak dapat membedakannya dan Anda tidak dapat menganalisisnya dengan mudah. Beberapa diskusi di sini .

iliasfl
sumber
1

Anda salah. Hanya bercanda. Namun, ada banyak alasan mengapa seseorang ingin menghitung deviasi rata-rata daripada std formal, dan dengan cara ini saya setuju dengan sudut pandang para insinyur saya. Tentu saja jika saya menghitung statistik untuk dibandingkan dengan kumpulan karya yang ada yang mengekspresikan kesimpulan kualitatif maupun kuantitatif, saya akan tetap menggunakan std. Tetapi, misalnya, anggap saya mencoba berlari cepatalgoritma deteksi anomali pada data biner, yang dihasilkan mesin. Saya tidak mengejar perbandingan akademis sebagai tujuan akhir saya. Tetapi saya tertarik pada kesimpulan mendasar tentang "penyebaran" aliran data tertentu tentang rata-ratanya. Saya juga tertarik menghitung ini berulang, dan seefisien mungkin. Dalam perangkat keras elektronik digital, kami memainkan trik kotor setiap saat - kami menyaring multiplikasi dan pembagian menjadi shift kiri dan kanan, masing-masing, dan untuk "menghitung" nilai absolut, kami cukup membuang bit tanda (dan menghitung komplemen satu atau dua jika diperlukan , keduanya transformasi mudah). Jadi, pilihan saya adalah menghitungnya dengan cara seret-seret yang saya bisa, dan menerapkan ambang linear untuk perhitungan saya untuk deteksi anomali cepat pada jendela waktu yang diinginkan.

NotATroll
sumber
1
Deviasi standar dapat dihitung secara efisien dan sederhana dengan algoritma online, sama seperti momen apa pun dapat terjadi (termasuk deviasi absolut rata-rata). Dengan demikian, persyaratan untuk perhitungan cepat atau sederhana tidak akan mengesampingkan hal ini (juga tidak akan mengesampingkan penaksir penyebaran berbasis momen).
whuber
0

Kedua ukuran itu memang berbeda. Yang pertama sering disebut sebagai Mean Absolute Deviation (MAD) dan yang kedua adalah Standard Deviasi (STD). Dalam aplikasi tertanam dengan daya komputasi yang sangat terbatas dan memori program yang terbatas, menghindari perhitungan akar kuadrat bisa sangat diinginkan.

Dari uji kasar cepat tampaknya bahwa MAD = f * STD dengan f di suatu tempat antara 0,78 dan 0,80 untuk satu set sampel acak terdistribusi gaussian.

Marco van Steen
sumber
0

Amar Sagoo memiliki artikel yang sangat bagus untuk menjelaskan hal ini: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Untuk menambahkan upaya saya sendiri pada pemahaman intuitif:

Penyimpangan rata-rata adalah cara yang layak untuk menanyakan seberapa jauh titik "rata-rata" hipotetis dari rata-rata, tetapi itu tidak benar-benar berfungsi untuk menanyakan seberapa jauh semua titik dari satu sama lain, atau seberapa "menyebar" data tersebut.

Deviasi standar menanyakan seberapa jauh jarak semua poin tersebut, sehingga dalam memasukkan informasi yang lebih bermanfaat daripada hanya deviasi rata-rata (itulah sebabnya deviasi rata-rata biasanya hanya digunakan sebagai batu loncatan menuju pemahaman deviasi standar).

Analogi yang baik adalah Teorema Pythagoras. Teorema Pythagoras memberitahu kita jarak antara titik dalam dua dimensi dengan mengambil jarak horizontal dan jarak vertikal, mengkuadratkan mereka, menambahkan kuadrat, dan mengambil akar kuadrat dari total.

Jika Anda perhatikan dengan seksama, rumus untuk (populasi) Standar Deviasi pada dasarnya sama dengan Teorema Pythagoras, tetapi dengan lebih dari dua dimensi (dan menggunakan jarak dari setiap titik ke rata-rata sebagai jarak di setiap dimensi). Karena itu memberikan gambaran paling akurat tentang "jarak" antara semua titik dalam set data Anda.

Untuk mendorong analogi itu sedikit lebih jauh, deviasi absolut rata-rata akan seperti mengambil rata-rata jarak horizontal dan vertikal, yang lebih pendek dari total jarak, sedangkan jumlah deviasi absolut akan menambahkan jarak horizontal dan vertikal, yang lebih lama dari jarak yang sebenarnya.

Isaac Demme
sumber
Saya berasumsi ketika Anda mengatakan penyimpangan yang Anda maksud berarti penyimpangan yang benar-benar adalah apa yang OP bicarakan. Terminologi itu penting karena deviasi rata-rata selalu 0. Mengenai perbedaan antara deviasi absolut rata-rata & deviasi standar keduanya melibatkan deviasi SEMUA poin dari rata-rata. Seseorang melibatkan penjumlahan dari penyimpangan absolut dari mean sementara itu adalah akar kuadrat jika jumlah penyimpangan kuadrat ..
Michael R. Chernick
0

Deviasi standar merupakan dispersi karena proses acak. Secara khusus, banyak pengukuran fisik yang diharapkan karena jumlah dari banyak proses independen memiliki distribusi normal (kurva lonceng).

Y=1σ2πe(xμ)22σ2

Yxμσ

Dengan kata lain, standar deviasi adalah istilah yang muncul dari variabel acak independen yang dijumlahkan bersama. Jadi, saya tidak setuju dengan beberapa jawaban yang diberikan di sini - standar deviasi bukan hanya alternatif untuk berarti penyimpangan yang "kebetulan lebih nyaman untuk perhitungan nanti". Deviasi standar adalah cara yang tepat untuk memodelkan dispersi untuk fenomena yang terdistribusi normal.

Jika Anda melihat persamaannya, Anda dapat melihat deviasi standar lebih berat dari deviasi rata-rata. Secara intuitif, Anda dapat menganggap deviasi rata-rata sebagai pengukuran deviasi rata - rata aktual dari rata-rata, sedangkan deviasi standar memperhitungkan lonceng berbentuk distribusi alias "normal" di sekitar rerata. Jadi jika data Anda terdistribusi normal, standar deviasi memberi tahu Anda bahwa jika Anda mengambil lebih banyak nilai, ~ 68% dari mereka akan ditemukan dalam satu standar deviasi di sekitar rata-rata.

Di sisi lain, jika Anda memiliki variabel acak tunggal, distribusi mungkin terlihat seperti persegi panjang, dengan probabilitas nilai yang sama muncul di mana saja dalam rentang. Dalam hal ini, penyimpangan rata-rata mungkin lebih tepat.

TL; DR jika Anda memiliki data yang disebabkan oleh banyak proses acak yang mendasari atau yang Anda tahu hanya didistribusikan secara normal, gunakan fungsi standar deviasi.

Aneil Mallavarapu
sumber