Dalam buku teks "Matematika Komprehensif Baru untuk Level O" oleh Greer (1983), saya melihat penyimpangan rata-rata dihitung seperti ini:
Ringkas perbedaan absolut antara nilai tunggal dan rata-rata. Kemudian dapatkan rata-rata. Sepanjang bab istilah mean deviasi digunakan.
Tetapi saya baru saja melihat beberapa referensi yang menggunakan istilah standar deviasi dan inilah yang mereka lakukan:
Hitung kuadrat perbedaan antara nilai-nilai tunggal dan rata-rata. Kemudian dapatkan rata-rata dan akhirnya akar jawabannya.
Saya mencoba kedua metode pada kumpulan data umum dan jawaban mereka berbeda. Saya bukan ahli statistik. Saya bingung ketika mencoba mengajarkan penyimpangan kepada anak-anak saya.
Jadi singkatnya, apakah istilah standar deviasi dan rata - rata penyimpangan sama atau apakah buku teks lama saya salah?
Jawaban:
Keduanya menjawab seberapa jauh nilai-nilai Anda tersebar di sekitar rata-rata pengamatan.
Pengamatan yang 1 di bawah rata-rata sama "jauh" dari nilai rata-rata sebagai 1 di atas rata-rata. Karena itu Anda harus mengabaikan tanda penyimpangan. Ini dapat dilakukan dengan dua cara:
Hitung nilai absolut dari penyimpangan dan jumlah ini.
Kuadratkan penyimpangan dan jumlah kotak ini. Karena kuadrat, Anda memberikan bobot lebih untuk penyimpangan tinggi, dan karenanya jumlah kotak ini akan berbeda dari jumlah rata-rata.
Setelah menghitung "jumlah deviasi absolut" atau "akar kuadrat dari jumlah deviasi kuadrat", Anda rata-rata untuk mendapatkan "rata-rata penyimpangan" dan "deviasi standar" masing-masing.
Penyimpangan rata-rata jarang digunakan.
sumber
Hari ini, nilai statistik sebagian besar dihitung oleh program komputer (Excel, ...), bukan oleh kalkulator genggam lagi. Oleh karena itu, saya berpendapat bahwa menghitung "penyimpangan rata-rata" tidak lebih rumit daripada menghitung "penyimpangan standar". Meskipun standar deviasi mungkin memiliki "... sifat matematika yang membuatnya lebih berguna dalam statistik", itu, pada kenyataannya, merupakan penyimpangan konsep varians dari rata-rata, karena memberikan bobot tambahan ke titik data jauh dari rata-rata. Mungkin butuh waktu, tetapi saya, untuk satu, harapan ahli statistik berevolusi kembali ke menggunakan "penyimpangan rata-rata" lebih sering ketika membahas distribusi antara poin data - itu lebih akurat mewakili bagaimana kita benar-benar berpikir tentang distribusi.
sumber
Mereka berdua mengukur konsep yang sama, tetapi tidak sama.
Anda membandingkandengan . Mereka tidak sama karena dua alasan:√1n∑|xi−x¯| 1n∑(xi−x¯)2−−−−−−−−−−−√
Pertama - tama , operator root-persegi tidak linear, atau . Oleh karena itu jumlah deviasi absolut tidak sama dengan akar kuadrat dari jumlah deviasi kuadrat, meskipun fungsi absolut dapat direpresentasikan sebagai fungsi kuadrat diikuti oleh akar kuadrat: sebagai akar kuadrat diambil setelah jumlah telah dihitung. ¢| xi- ˉ x | =∑ √a+b−−−−√≠a−−√+b√
∑|xi−x¯|=∑(xi−x¯)2−−−−−−−√≠∑(xi−x¯)2−−−−−−−−−√
Kedua , sekarang juga berada di bawah akar kuadrat dalam perhitungan standar deviasi.n
Coba hitung - itu akan menghasilkan jawaban yang sama dengan rata-rata penyimpangan dan membantu Anda untuk memahami.1n∑(xi−x¯)2−−−−−−−√
Alasan mengapa standar deviasi lebih disukai adalah karena secara matematis lebih mudah untuk digunakan nanti, ketika perhitungan menjadi lebih rumit.
sumber
@itsols, saya akan menambahkan gagasan penting Kasper itu
The mean deviation is rarely used
. Mengapa standar deviasi dianggap sebagai ukuran variabilitas yang lebih baik daripada rata-rata deviasi absolut? Karena mean aritmatika adalah lokus jumlah minimal penyimpangan kuadrat (dan bukan jumlah absolut) darinya.Misalkan Anda ingin menilai tingkat altruisme. Maka Anda mungkin tidak akan bertanya kepada seseorang tentang seberapa banyak ia siap memberikan uang dalam "situasi umum" kehidupan. Sebaliknya, Anda akan memilih untuk bertanya berapa banyak dia siap untuk melakukannya dalam situasi terbatas, di mana ia memiliki sumber daya seminimal mungkin untuk hidupnya sendiri. Yaitu berapa jumlah altruisme individu dalam situasi ketika jumlah itu minimal individu?
Demikian juga, apa tingkat variabilitas data ini? Secara intuitif, indeks pengukuran terbaik untuk itu adalah indeks yang diminimalkan (atau dimaksimalkan) hingga batas dalam konteks ini. Konteksnya adalah "sekitar rata-rata aritmatika". Lalu st. deviasi adalah pilihan terbaik dalam pengertian ini. Jika konteksnya "sekitar median" maka berarti | deviasi | akan menjadi pilihan terbaik, karena median adalah lokus dari jumlah minimal penyimpangan absolut darinya.
sumber
Satu hal yang patut ditambahkan adalah bahwa alasan yang paling mungkin mengapa buku teks Anda yang berusia 30 tahun menggunakan deviasi rata-rata absolut sebagai lawan dari standar deviasi adalah bahwa lebih mudah untuk menghitung dengan tangan (tidak ada kuadrat / akar kuadrat). Sekarang kalkulator sudah dapat diakses oleh siswa sekolah menengah, tidak ada alasan untuk tidak meminta mereka menghitung standar deviasi.
Masih ada beberapa situasi di mana penyimpangan absolut digunakan sebagai ganti penyimpangan standar dalam pemasangan model yang rumit. Deviasi absolut kurang sensitif terhadap outlier ekstrim (nilai jauh dari mean / trendline) dibandingkan dengan deviasi standar karena mereka tidak kuadratkan jarak itu sebelum menambahkannya ke nilai-nilai dari titik data lainnya. Karena metode penyetelan model bertujuan untuk mengurangi penyimpangan total dari garis tren (sesuai dengan penyimpangan metode mana saja yang dihitung), metode yang menggunakan deviasi standar dapat berakhir dengan menciptakan garis tren yang menyimpang dari mayoritas poin agar lebih dekat dengan pencilan. . Menggunakan penyimpangan absolut mengurangi distorsi ini, tetapi dengan biaya membuat perhitungan garis tren lebih rumit.
Itu karena, seperti yang telah dicatat orang lain, standar deviasi memiliki sifat matematika dan hubungan yang umumnya membuatnya lebih berguna dalam statistik. Tetapi "bermanfaat" tidak harus dikacaukan dengan sempurna.
sumber
Keduanya mengukur dispersi data Anda dengan menghitung jarak data dengan rata-ratanya.
Perbedaan antara dua norma adalah bahwa standar deviasi menghitung kuadrat dari perbedaan sedangkan rata - rata deviasi absolut hanya melihat perbedaan absolut. Oleh karena itu pencilan besar akan membuat dispersi yang lebih tinggi ketika menggunakan standar deviasi daripada metode lainnya. Jarak Euclidean memang juga lebih sering digunakan. Alasan utamanya adalah standar deviasimemiliki sifat yang bagus saat data terdistribusi secara normal. Jadi berdasarkan asumsi ini, disarankan untuk menggunakannya. Namun orang sering melakukan asumsi ini untuk data yang sebenarnya tidak terdistribusi normal yang menimbulkan masalah. Jika data Anda tidak terdistribusi normal, Anda masih dapat menggunakan standar deviasi, tetapi Anda harus berhati-hati dengan interpretasi hasil.
Akhirnya Anda harus tahu bahwa kedua ukuran dispersi adalah kasus khusus dari jarak Minkowski , untuk p = 1 dan p = 2. Anda dapat meningkatkan p untuk mendapatkan ukuran lain dari penyebaran data Anda.
sumber
Mereka adalah tindakan serupa yang mencoba untuk mengukur gagasan yang sama. Biasanya Anda menggunakan st. penyimpangan karena memiliki sifat yang bagus, jika Anda membuat asumsi tentang distribusi yang mendasarinya.
Di sisi lain nilai absolut dalam penyimpangan rata-rata menyebabkan beberapa masalah dari perspektif matematika karena Anda tidak dapat membedakannya dan Anda tidak dapat menganalisisnya dengan mudah. Beberapa diskusi di sini .
sumber
Anda salah. Hanya bercanda. Namun, ada banyak alasan mengapa seseorang ingin menghitung deviasi rata-rata daripada std formal, dan dengan cara ini saya setuju dengan sudut pandang para insinyur saya. Tentu saja jika saya menghitung statistik untuk dibandingkan dengan kumpulan karya yang ada yang mengekspresikan kesimpulan kualitatif maupun kuantitatif, saya akan tetap menggunakan std. Tetapi, misalnya, anggap saya mencoba berlari cepatalgoritma deteksi anomali pada data biner, yang dihasilkan mesin. Saya tidak mengejar perbandingan akademis sebagai tujuan akhir saya. Tetapi saya tertarik pada kesimpulan mendasar tentang "penyebaran" aliran data tertentu tentang rata-ratanya. Saya juga tertarik menghitung ini berulang, dan seefisien mungkin. Dalam perangkat keras elektronik digital, kami memainkan trik kotor setiap saat - kami menyaring multiplikasi dan pembagian menjadi shift kiri dan kanan, masing-masing, dan untuk "menghitung" nilai absolut, kami cukup membuang bit tanda (dan menghitung komplemen satu atau dua jika diperlukan , keduanya transformasi mudah). Jadi, pilihan saya adalah menghitungnya dengan cara seret-seret yang saya bisa, dan menerapkan ambang linear untuk perhitungan saya untuk deteksi anomali cepat pada jendela waktu yang diinginkan.
sumber
Kedua ukuran itu memang berbeda. Yang pertama sering disebut sebagai Mean Absolute Deviation (MAD) dan yang kedua adalah Standard Deviasi (STD). Dalam aplikasi tertanam dengan daya komputasi yang sangat terbatas dan memori program yang terbatas, menghindari perhitungan akar kuadrat bisa sangat diinginkan.
Dari uji kasar cepat tampaknya bahwa MAD = f * STD dengan f di suatu tempat antara 0,78 dan 0,80 untuk satu set sampel acak terdistribusi gaussian.
sumber
Amar Sagoo memiliki artikel yang sangat bagus untuk menjelaskan hal ini: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]
Untuk menambahkan upaya saya sendiri pada pemahaman intuitif:
Penyimpangan rata-rata adalah cara yang layak untuk menanyakan seberapa jauh titik "rata-rata" hipotetis dari rata-rata, tetapi itu tidak benar-benar berfungsi untuk menanyakan seberapa jauh semua titik dari satu sama lain, atau seberapa "menyebar" data tersebut.
Deviasi standar menanyakan seberapa jauh jarak semua poin tersebut, sehingga dalam memasukkan informasi yang lebih bermanfaat daripada hanya deviasi rata-rata (itulah sebabnya deviasi rata-rata biasanya hanya digunakan sebagai batu loncatan menuju pemahaman deviasi standar).
Analogi yang baik adalah Teorema Pythagoras. Teorema Pythagoras memberitahu kita jarak antara titik dalam dua dimensi dengan mengambil jarak horizontal dan jarak vertikal, mengkuadratkan mereka, menambahkan kuadrat, dan mengambil akar kuadrat dari total.
Jika Anda perhatikan dengan seksama, rumus untuk (populasi) Standar Deviasi pada dasarnya sama dengan Teorema Pythagoras, tetapi dengan lebih dari dua dimensi (dan menggunakan jarak dari setiap titik ke rata-rata sebagai jarak di setiap dimensi). Karena itu memberikan gambaran paling akurat tentang "jarak" antara semua titik dalam set data Anda.
Untuk mendorong analogi itu sedikit lebih jauh, deviasi absolut rata-rata akan seperti mengambil rata-rata jarak horizontal dan vertikal, yang lebih pendek dari total jarak, sedangkan jumlah deviasi absolut akan menambahkan jarak horizontal dan vertikal, yang lebih lama dari jarak yang sebenarnya.
sumber
Deviasi standar merupakan dispersi karena proses acak. Secara khusus, banyak pengukuran fisik yang diharapkan karena jumlah dari banyak proses independen memiliki distribusi normal (kurva lonceng).
Dengan kata lain, standar deviasi adalah istilah yang muncul dari variabel acak independen yang dijumlahkan bersama. Jadi, saya tidak setuju dengan beberapa jawaban yang diberikan di sini - standar deviasi bukan hanya alternatif untuk berarti penyimpangan yang "kebetulan lebih nyaman untuk perhitungan nanti". Deviasi standar adalah cara yang tepat untuk memodelkan dispersi untuk fenomena yang terdistribusi normal.
Jika Anda melihat persamaannya, Anda dapat melihat deviasi standar lebih berat dari deviasi rata-rata. Secara intuitif, Anda dapat menganggap deviasi rata-rata sebagai pengukuran deviasi rata - rata aktual dari rata-rata, sedangkan deviasi standar memperhitungkan lonceng berbentuk distribusi alias "normal" di sekitar rerata. Jadi jika data Anda terdistribusi normal, standar deviasi memberi tahu Anda bahwa jika Anda mengambil lebih banyak nilai, ~ 68% dari mereka akan ditemukan dalam satu standar deviasi di sekitar rata-rata.
Di sisi lain, jika Anda memiliki variabel acak tunggal, distribusi mungkin terlihat seperti persegi panjang, dengan probabilitas nilai yang sama muncul di mana saja dalam rentang. Dalam hal ini, penyimpangan rata-rata mungkin lebih tepat.
TL; DR jika Anda memiliki data yang disebabkan oleh banyak proses acak yang mendasari atau yang Anda tahu hanya didistribusikan secara normal, gunakan fungsi standar deviasi.
sumber