Dalam definisi deviasi standar, mengapa kita harus kuadratkan perbedaan dari nilai rata-rata untuk mendapatkan nilai rata-rata (E) dan mengambil akar kuadrat kembali di akhir? Tidak bisakah kita hanya mengambil nilai absolut dari perbedaan sebagai gantinya dan mendapatkan nilai yang diharapkan (rata-rata) dari mereka, dan bukankah itu juga menunjukkan variasi data? Angka tersebut akan berbeda dari metode kuadrat (metode nilai absolut akan lebih kecil), tetapi harus tetap menunjukkan penyebaran data. Adakah yang tahu mengapa kita menggunakan pendekatan kuadrat ini sebagai standar?
Definisi standar deviasi:
Tidak bisakah kita mengambil nilai absolut saja dan masih menjadi ukuran yang baik?
Jawaban:
Jika tujuan dari standar deviasi adalah untuk meringkas penyebaran set data simetris (yaitu secara umum seberapa jauh masing-masing datum dari rata-rata), maka kita memerlukan metode yang baik untuk menentukan bagaimana mengukur penyebaran itu.
Manfaat mengkuadratkan meliputi:
Namun mengkuadratkan memiliki masalah sebagai ukuran penyebaran dan itu adalah bahwa semua unit kuadrat, sedangkan kita mungkin lebih suka spread berada di unit yang sama dengan data asli (pikirkan pound kuadrat, dolar kuadrat, atau apel kuadrat) . Karenanya akar kuadrat memungkinkan kita untuk kembali ke unit asli.
Saya kira Anda bisa mengatakan bahwa perbedaan absolut memberikan bobot yang sama pada penyebaran data sedangkan kuadrat menekankan ekstrem. Namun secara teknis, seperti yang telah ditunjukkan oleh orang lain, kuadrat membuat aljabar lebih mudah untuk dikerjakan dan menawarkan properti yang tidak dimiliki metode absolut (misalnya, variansnya sama dengan nilai yang diharapkan dari kuadrat distribusi dikurangi kuadrat dari rata-rata distribusi)
Penting untuk dicatat bahwa tidak ada alasan Anda tidak dapat mengambil perbedaan absolut jika itu adalah preferensi Anda tentang bagaimana Anda ingin melihat 'spread' (semacam bagaimana beberapa orang melihat 5% sebagai ambang ajaib untuk nilai-, padahal sebenarnya itu tergantung situasi). Memang, sebenarnya ada beberapa metode yang bersaing untuk mengukur penyebaran.p
Pandangan saya adalah menggunakan nilai kuadrat karena saya suka memikirkan bagaimana hubungannya dengan Teorema Statistik Pythagoras: ... ini juga membantu saya mengingat bahwa ketika bekerja dengan variabel acak independen , varians tambahkan, standar deviasi tidak. Tapi itu hanya preferensi subyektif pribadi saya yang sebagian besar hanya saya gunakan sebagai bantuan memori, merasa bebas untuk mengabaikan paragraf ini.c=a2+b2−−−−−−√
Analisis yang lebih mendalam dapat dibaca di sini .
sumber
Perbedaan kuadrat memiliki sifat matematika yang lebih bagus; itu terus dapat dibedakan (bagus bila Anda ingin menguranginya), ini adalah statistik yang cukup untuk distribusi Gaussian, dan itu (versi) norma L2 yang berguna untuk membuktikan konvergensi dan sebagainya.
Deviasi absolut rata-rata (notasi nilai absolut yang Anda sarankan) juga digunakan sebagai ukuran dispersi, tetapi itu tidak "berperilaku baik" seperti kesalahan kuadrat.
sumber
Salah satu cara Anda dapat memikirkan ini adalah bahwa standar deviasi mirip dengan "jarak dari rata-rata".
Bandingkan ini dengan jarak dalam ruang euclidean - ini memberi Anda jarak sebenarnya, di mana apa yang Anda sarankan (yang, btw, adalah deviasi absolut ) lebih seperti perhitungan jarak manhattan .
sumber
The Alasan bahwa kita menghitung standar deviasi bukan kesalahan mutlak adalah bahwa kita mengasumsikan kesalahan untuk didistribusikan secara normal . Itu bagian dari model.
Misalkan Anda mengukur panjang yang sangat kecil dengan penggaris, maka standar deviasi adalah metrik kesalahan yang buruk karena Anda tahu Anda tidak akan pernah sengaja mengukur panjang negatif. Metrik yang lebih baik akan menjadi salah satu yang membantu menyesuaikan distribusi Gamma ke pengukuran Anda:
Seperti standar deviasi, ini juga non-negatif dan dapat dibedakan, tetapi statistik kesalahan yang lebih baik untuk masalah ini.
sumber
Jawaban yang paling memuaskan saya adalah bahwa ia jatuh secara alami dari generalisasi sampel ke ruang euclidean n-dimensi. Memang bisa diperdebatkan apakah itu sesuatu yang harus dilakukan, tetapi bagaimanapun juga:
Asumsikan pengukuran X i masing-masing merupakan sumbu dalam R n . Maka data Anda x i menentukan titik x di ruang itu. Sekarang Anda mungkin memperhatikan bahwa semua data sangat mirip satu sama lain, sehingga Anda dapat merepresentasikannya dengan parameter lokasi tunggal μ yang dibatasi untuk berada pada garis yang ditentukan oleh X i = μ . Memproyeksikan datapoint Anda ke baris ini membuat Anda μ = ˉ x , dan jarak dari titik proyeksi μ 1 ke datapoint sebenarnya √n Xsaya Rn xsaya x μ Xsaya= μ μ^= x¯ μ^1 .n - 1n---√σ^= ∥ x - μ^1 ∥
Pendekatan ini juga membuat Anda interpretasi geometris untuk .ρ^= cos∠ ( x~⃗ , y~⃗ )
sumber
Mengkuadratkan perbedaan dari rata-rata memiliki beberapa alasan.
Varians didefinisikan sebagai momen ke-2 dari penyimpangan (RV di sini adalah ) dan dengan demikian kuadrat sebagai momen hanyalah harapan dari kekuatan yang lebih tinggi dari variabel acak.(x−μ)
Memiliki kuadrat yang berlawanan dengan fungsi nilai absolut memberikan fungsi kontinu dan dapat dibedakan bagus (nilai absolut tidak dapat dibedakan pada 0) - yang menjadikannya pilihan alami, terutama dalam konteks estimasi dan analisis regresi.
Formulasi kuadrat juga secara alami keluar dari parameter Distribusi Normal.
sumber
Namun alasan lain (selain yang bagus di atas) datang dari Fisher sendiri, yang menunjukkan bahwa standar deviasi lebih "efisien" daripada deviasi absolut. Di sini, efisien berkaitan dengan berapa banyak statistik akan berfluktuasi nilainya pada sampel yang berbeda dari suatu populasi. Jika populasi Anda terdistribusi secara normal, deviasi standar dari berbagai sampel dari populasi itu, rata-rata, cenderung memberi Anda nilai yang sangat mirip satu sama lain, sedangkan deviasi absolut akan memberi Anda angka yang menyebar sedikit lebih banyak. Sekarang, jelas ini dalam keadaan ideal, tetapi alasan ini meyakinkan banyak orang (bersama dengan matematika menjadi lebih bersih), sehingga kebanyakan orang bekerja dengan standar deviasi.
sumber
Asal tahu saja, ada pertanyaan Math Overflow pada topik yang sama.
Mengapa-itu-begitu-keren-ke-kuadrat-dalam-hal-menemukan-standar-deviasi
Pesan take away adalah bahwa menggunakan akar kuadrat dari varians mengarah ke matematika yang lebih mudah. Respons serupa diberikan oleh Rich dan Reed di atas.
sumber
Perhatikan apa yang memungkinkan ini: Katakanlah saya melempar koin yang adil 900 kali. Berapa probabilitas bahwa jumlah kepala yang saya dapatkan adalah antara 440 dan 455 inklusif? Cukup temukan jumlah kepala yang diharapkan ( ), dan varians dari jumlah kepala ( 225 = 15 2 ), kemudian temukan probabilitas dengan distribusi normal (atau Gaussian) dengan harapan 450 dan standar deviasi 15 adalah antara 439,5 dan 455,5 . Abraham de Moivre melakukan ini dengan melempar koin pada abad ke-18, dengan demikian pertama-tama menunjukkan bahwa kurva berbentuk lonceng bernilai sesuatu.450 225=152 450 15 439.5 455.5
sumber
Saya pikir kontras antara menggunakan deviasi absolut dan deviasi kuadrat menjadi lebih jelas setelah Anda bergerak melampaui variabel tunggal dan berpikir tentang regresi linier. Ada diskusi yang bagus di http://en.wikipedia.org/wiki/Least_absolute_deviations , khususnya bagian "Membandingkan Kuadrat Terkecil dengan Penyimpangan Mutlak Paling Tidak", yang menghubungkan ke beberapa latihan siswa dengan seperangkat applet yang rapi di http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .
Untuk meringkas, paling tidak penyimpangan absolut lebih kuat untuk outlier daripada kuadrat terkecil biasa, tetapi bisa tidak stabil (perubahan kecil bahkan satu datum tunggal dapat memberikan perubahan besar dalam garis pas) dan tidak selalu memiliki solusi yang unik - mungkin ada berbagai macam garis yang dipasang. Juga, setidaknya penyimpangan absolut memerlukan metode berulang, sedangkan kuadrat terkecil biasa memiliki solusi bentuk tertutup sederhana, meskipun itu bukan masalah besar sekarang seperti pada zaman Gauss dan Legendre, tentu saja.
sumber
Ada banyak alasan; mungkin yang utama adalah ia berfungsi dengan baik sebagai parameter dari distribusi normal.
sumber
Dalam banyak hal, penggunaan standar deviasi untuk meringkas dispersi melompat ke kesimpulan. Anda dapat mengatakan bahwa SD secara implisit mengasumsikan distribusi simetris karena perlakuannya yang sama terhadap jarak di bawah rata-rata seperti jarak di atas rata-rata. SD sangat sulit untuk diartikan ke non-ahli statistik. Orang dapat berargumen bahwa perbedaan rata-rata Gini memiliki aplikasi yang lebih luas dan secara signifikan lebih dapat ditafsirkan. Tidak diperlukan seseorang untuk menyatakan pilihan mereka tentang ukuran kecenderungan sentral seperti penggunaan SD untuk mean. Perbedaan rata-rata Gini adalah perbedaan absolut rata-rata antara dua pengamatan yang berbeda. Selain kuat dan mudah diinterpretasikan, kebetulan menjadi 0,98 seefisien SD jika distribusinya sebenarnya Gaussian.
sumber
Memperkirakan deviasi standar suatu distribusi perlu memilih jarak.
Salah satu dari jarak berikut ini dapat digunakan:
Kami biasanya menggunakan jarak euclidean alami ( ), yang digunakan semua orang dalam kehidupan sehari-hari. Jarak yang Anda usulkan adalah jarak dengan n = 1 . Keduanya adalah kandidat yang baik tetapi mereka berbeda.n=2 n=1
Orang bisa memutuskan untuk menggunakan juga.n=3
Saya tidak yakin Anda akan menyukai jawaban saya, maksud saya bertentangan dengan orang lain adalah tidak menunjukkan bahwa lebih baik. Saya pikir jika Anda ingin memperkirakan standar deviasi suatu distribusi, Anda dapat menggunakan jarak yang berbeda.n=2
sumber
Itu tergantung pada apa yang Anda bicarakan ketika Anda mengatakan "penyebaran data". Bagi saya ini bisa berarti dua hal:
Untuk poin 1) tidak ada alasan khusus untuk menggunakan standar deviasi sebagai ukuran penyebaran, kecuali ketika Anda memiliki distribusi sampling normal. Ukuran adalah ukuran yang lebih tepat untuk distribusi Laplace Sampling . Dugaan saya adalah bahwa standar deviasi digunakan di sini karena intuisi yang dibawa dari poin 2). Mungkin juga karena keberhasilan pemodelan kuadrat terkecil pada umumnya, yang standar deviasinya adalah ukuran yang tepat. Mungkin juga karena menghitung E ( X 2 ) umumnya lebih mudah daripada menghitung E ( |E(|X−μ|) E(X2) untuk sebagian besar distribusi.E(|X|)
Sekarang, untuk poin 2) ada alasan yang sangat baik untuk menggunakan varians / standar deviasi sebagai ukuran penyebaran, dalam satu kasus tertentu, tetapi sangat umum. Anda dapat melihatnya di pendekatan Laplace ke posterior. Dengan Data dan informasi sebelumnya I , tulis posterior untuk parameter θ sebagai:D I θ
Jika kita mencolokkan perkiraan ini, kita dapat:
sumber
"Mengapa kuadratkan perbedaannya" alih-alih "mengambil nilai absolut"? Untuk menjawab dengan sangat tepat, ada literatur yang memberikan alasan itu diadopsi dan kasus mengapa sebagian besar alasan itu tidak berlaku. "Tidak bisakah kita mengambil nilai absolut ...?". Saya menyadari literatur di mana jawabannya adalah ya itu dilakukan dan melakukannya dianggap menguntungkan.
Penulis Gorard menyatakan, pertama, menggunakan kotak sebelumnya diadopsi untuk alasan kesederhanaan perhitungan tetapi alasan-alasan asli tidak lagi berlaku. Gorard menyatakan, kedua, bahwa OLS diadopsi karena Fisher menemukan bahwa hasil dalam sampel analisis yang menggunakan OLS memiliki penyimpangan yang lebih kecil daripada yang menggunakan perbedaan absolut (secara kasar dinyatakan). Dengan demikian, tampaknya OLS mungkin memiliki manfaat dalam beberapa kondisi ideal; Namun, Gorard melanjutkan untuk mencatat bahwa ada beberapa konsensus (dan dia mengklaim Fisher setuju) bahwa di bawah kondisi dunia nyata (pengukuran pengamatan yang tidak sempurna, distribusi tidak seragam, studi populasi tanpa kesimpulan dari sampel), menggunakan kotak lebih buruk daripada perbedaan absolut.
Gorard menanggapi pertanyaan Anda, "Tidak bisakah kita mengambil nilai absolut dari perbedaan dan mendapatkan nilai yang diharapkan (rata-rata) dari mereka?" adalah ya. Keuntungan lain adalah bahwa menggunakan perbedaan menghasilkan ukuran (ukuran kesalahan dan variasi) yang terkait dengan cara kita mengalami ide-ide itu dalam kehidupan. Gorard berkata bayangkan orang-orang yang membagi tagihan restoran secara merata dan beberapa orang mungkin secara intuitif memperhatikan bahwa metode itu tidak adil. Tidak ada yang akan memperbaiki kesalahan; perbedaan adalah intinya.
Akhirnya, dengan menggunakan perbedaan absolut, ia mencatat, memperlakukan setiap pengamatan secara sama, sedangkan sebaliknya mengkuadratkan perbedaan tersebut memberikan pengamatan yang diprediksi memiliki bobot lebih buruk daripada pengamatan yang diprediksi dengan baik, yang seperti memungkinkan pengamatan tertentu untuk dimasukkan dalam penelitian beberapa kali. Singkatnya, dorongan umumnya adalah bahwa saat ini tidak banyak alasan menang untuk menggunakan kotak dan bahwa sebaliknya menggunakan perbedaan absolut memiliki keuntungan.
Referensi:
sumber
Karena kuadrat dapat memungkinkan penggunaan banyak operasi atau fungsi matematika lainnya lebih mudah daripada nilai absolut.
Contoh: kuadrat dapat diintegrasikan, dibedakan, dapat digunakan dalam fungsi trigonometri, logaritmik dan lainnya, dengan mudah.
sumber
Saat menambahkan variabel acak, variansnya menambahkan, untuk semua distribusi. Varians (dan karenanya deviasi standar) adalah ukuran yang berguna untuk hampir semua distribusi, dan sama sekali tidak terbatas pada distribusi gaussian (alias "normal"). Itu nikmat menggunakannya sebagai ukuran kesalahan kami. Kurangnya keunikan adalah masalah serius dengan perbedaan absolut, karena sering ada jumlah tak terbatas dari "ukuran" yang sama, namun jelas "satu di tengah" paling disukai secara realistis. Juga, bahkan dengan komputer saat ini, efisiensi komputasi juga penting. Saya bekerja dengan set data yang besar, dan waktu CPU sangat penting. Namun, tidak ada ukuran absolut "terbaik" tunggal residu, seperti yang ditunjukkan oleh beberapa jawaban sebelumnya. Keadaan yang berbeda terkadang membutuhkan tindakan yang berbeda.
sumber
Secara alami Anda dapat mendeskripsikan dispersi distribusi dengan cara apa pun yang bermakna (deviasi absolut, kuantil, dll.).
Satu fakta yang menyenangkan adalah bahwa varians adalah momen sentral kedua, dan setiap distribusi secara unik dijelaskan oleh momen-momennya jika ada. Fakta bagus lainnya adalah bahwa varians jauh lebih mudah ditelusur secara matematis daripada metrik yang sebanding. Fakta lain adalah bahwa varians adalah salah satu dari dua parameter dari distribusi normal untuk parametrization biasa, dan distribusi normal hanya memiliki 2 momen pusat bukan nol yang merupakan dua parameter yang sangat. Bahkan untuk distribusi yang tidak normal dapat membantu untuk berpikir dalam kerangka kerja yang normal.
Seperti yang saya lihat, alasan standar deviasi ada seperti itu adalah bahwa dalam aplikasi akar kuadrat dari varians secara teratur muncul (seperti untuk menstandarisasi varian acak), yang mengharuskan nama untuk itu.
sumber
Pendekatan yang berbeda dan mungkin lebih intuitif adalah ketika Anda berpikir tentang regresi linier vs regresi median.
Dengan kata lain, apakah akan menggunakan kesalahan absolut atau kuadrat tergantung pada apakah Anda ingin memodelkan nilai yang diharapkan atau nilai median.
Koenker dan Hallock memiliki artikel bagus tentang regresi kuantil, di mana median regresi adalah kasus khusus: http://master272.com/finance/QR/QRJEP.pdf .
sumber
Dugaan saya adalah ini: Kebanyakan populasi (distribusi) cenderung berkumpul di sekitar rata-rata. Semakin jauh nilainya dari mean, semakin langka nilainya. Untuk mengekspresikan secara memadai bagaimana "out of line" suatu nilai, perlu untuk memperhitungkan jarak dari mean dan (biasanya berbicara) tentang terjadinya. Mengkuadratkan perbedaan dari rata-rata melakukan ini, dibandingkan dengan nilai-nilai yang memiliki penyimpangan lebih kecil. Setelah semua varians dirata-rata, maka boleh saja untuk mengambil akar kuadrat, yang mengembalikan unit ke dimensi aslinya.
sumber
Kuadrat memperkuat penyimpangan yang lebih besar.
Jika sampel Anda memiliki nilai yang berada di seluruh bagan, maka untuk membawa 68,2% dalam deviasi standar pertama, deviasi standar Anda harus sedikit lebih lebar. Jika data Anda cenderung semua jatuh di sekitar rata-rata maka σ bisa lebih ketat.
Ada yang bilang itu untuk menyederhanakan perhitungan. Menggunakan akar kuadrat positif dari bujur sangkar akan memecahkannya sehingga argumen itu tidak mengambang.
Jadi jika kesederhanaan aljabar adalah tujuannya maka itu akan terlihat seperti ini:
Jelas mengkuadratkan ini juga memiliki efek memperkuat kesalahan outlying (doh!).
sumber
sqrt((x-mu)^2)
, rumus Anda menyesatkan. Selain itu, hanya karena kuadrat memiliki efek memperkuat penyimpangan yang lebih besar tidak berarti bahwa ini adalah alasan untuk lebih memilih varians daripada MAD . Jika ada, itu adalah properti netral karena seringkali kami menginginkan sesuatu yang lebih kuat seperti MAD . Terakhir, fakta bahwa varians lebih mudah ditelusur secara matematis daripada MAD adalah masalah yang jauh lebih dalam secara matematis maka Anda telah menyampaikan dalam posting ini.Kami menguadratkan perbedaan x dari mean karena jarak Euclidean, sebanding dengan akar kuadrat dari derajat kebebasan (jumlah x, dalam ukuran populasi), adalah ukuran terbaik dispersi.
Menghitung jarak
Berapa jarak dari titik 0 ke titik 5?
Ok, itu sepele karena itu satu dimensi.
Bagaimana dengan jarak untuk titik di titik 0, 0 ke titik 3, 4?
Jika kita hanya bisa pergi dalam 1 dimensi pada satu waktu (seperti di blok kota) maka kita hanya menambahkan angka. (Ini kadang-kadang dikenal sebagai jarak Manhattan).
Tetapi bagaimana dengan pergi dalam dua dimensi sekaligus? Kemudian (oleh teorema Pythagoras yang kita semua pelajari di sekolah menengah), kita kuadratkan jarak di setiap dimensi, jumlah kuadrat, dan kemudian ambil akar kuadrat untuk menemukan jarak dari titik asal ke titik.
Bagaimana jarak dari titik di 0, 0, 0 ke titik 1, 2, 2?
Ini hanya
karena jarak untuk dua x pertama membentuk kaki untuk menghitung total jarak dengan x akhir.
Kita dapat terus memperluas aturan mengkuadratkan jarak masing-masing dimensi, ini menggeneralisasi apa yang kita sebut sebagai jarak Euclidean, untuk pengukuran ortogonal dalam ruang hyperdimensional, seperti:
dan jumlah kuadrat ortogonal adalah jarak kuadrat:
Apa yang membuat pengukuran orthogonal (atau pada sudut kanan) dari yang lain? Syaratnya adalah bahwa tidak ada hubungan antara dua pengukuran. Kami akan mencari pengukuran ini menjadi independen dan didistribusikan secara individual , ( iid ).
Perbedaan
Sekarang ingat rumus untuk varians populasi (dari mana kita akan mendapatkan standar deviasi):
Jika kami telah memusatkan data pada 0 dengan mengurangi rata-rata, kami memiliki:
Jadi kita melihat varians hanya jarak kuadrat dibagi dengan jumlah derajat kebebasan (jumlah dimensi di mana variabel bebas bervariasi). Ini juga merupakan kontribusi rata-rata untukdi s t a n c e2 per pengukuran. "Mean squared variance" juga akan menjadi istilah yang tepat.
Standar deviasi
Kemudian kita memiliki standar deviasi, yang hanya merupakan akar kuadrat dari varians:
Yang setara, jarak , dibagi dengan akar kuadrat dari derajat kebebasan:
Berarti Penyimpangan Absolut
Mean Absolute Deviation (MAD), adalah ukuran dispersi yang menggunakan jarak Manhattan, atau jumlah nilai absolut dari perbedaan dari rata-rata.
Sekali lagi, dengan asumsi data terpusat (berarti dikurangi) kita memiliki jarak Manhattan dibagi dengan jumlah pengukuran:
Diskusi
Tabel ini mencerminkan informasi di atas dengan cara yang lebih ringkas:
Komentar:
Berikut 10 simulasi satu juta sampel dari distribusi normal standar:
Kesimpulan
Kami lebih suka perbedaan kuadrat ketika menghitung ukuran dispersi karena kami dapat mengeksploitasi jarak Euclidean, yang memberi kami statistik diskriptif yang lebih baik dari dispersi. Ketika ada nilai-nilai yang relatif lebih ekstrim, jarak Euclidean menjelaskan hal itu dalam statistik, sedangkan jarak Manhattan memberikan masing-masing bobot pengukuran yang sama.
sumber