Berarti

11

Saya sedang mengerjakan data yang sangat miring, jadi saya menggunakan median alih-alih mean untuk meringkas kecenderungan sentral. Saya ingin memiliki ukuran dispersi. Sementara saya sering melihat orang-orang melaporkan mean standar deviasi±± ± atau median kuartil± untuk merangkum kecenderungan sentral, apakah boleh melaporkan median median dispersi absolut (MAD)± ? Apakah ada potensi masalah dengan pendekatan ini?

Saya akan menemukan pendekatan ini lebih kompak dan intuitif daripada melaporkan kuartil bawah dan atas, terutama dalam tabel besar penuh angka.

Mulone
sumber
3
Saya pikir, median, kuartil bawah dan atas bersama-sama akan menggambarkan data dengan lebih baik. Anda dapat menemukan beberapa statistik deskriptif lainnya di sini .
1
Saya ingin menjadi sesingkat mungkin: apakah median + 2 kuartil ok?
Mulone
4
MAD adalah statistik yang baik untuk mengekspresikan dispersi dari kumpulan data - ini lebih tahan terhadap pencilan bahkan dari rentang interkuartil. Tetapi Anda mungkin ingin berpikir tentang apa arti median MAD sebenarnya dan bagaimana audiens Anda harus menafsirkannya. Ini tidak menikmati sifat asimtotik atau Chebeyshev yang sama seperti rata-rata ± SD. Mungkin itulah sebabnya ekspresi seperti itu jarang, jika pernah, digunakan. ±±
whuber
1
Saya selalu berpikir MAD berarti penyimpangan absolut analog ke mse yang berarti kesalahan kuadrat. ini adalah rata-rata dari penyimpangan absolut dari mean bukan median. Apakah saya benar atau saya akan MAD?
Michael R. Chernick
2
gambar seribu kata, jika memungkinkan menampilkan histogram sangat kuat.
bdeonovic

Jawaban:

7

Saya tidak berpikir median gila sesuai pada umumnya. ±

Anda dapat dengan mudah membangun distribusi di mana 50% dari data fraksional lebih rendah daripada median, dan 50% dari data tersebar jauh lebih besar daripada median - misalnya (4,9,4,9,4,9,4,9,4,9,4,9,4,9,1000000,1000000,100000000 , 1000000). The 5Notasi ± 0,10 tampaknya menunjukkan bahwa ada beberapa massa di sekitar (median + mad ~ = 5.10), dan itu tidak selalu terjadi, dan Anda tidak tahu bahwa ada massa besar di dekat 1000000.±

Kuartil / kuantil memberikan gagasan distribusi yang jauh lebih baik dengan mengorbankan angka tambahan - (4.9,5.0.1000000.0.0). Saya ragu itu sepenuhnya kejadian bersama bahwa kemiringan adalah momen ketiga dan bahwa saya tampaknya memerlukan tiga angka / dimensi untuk secara intuitif memvisualisasikan distribusi yang miring.

Yang mengatakan, tidak ada yang salah dengan itu per se - Saya hanya berdebat intuisi dan keterbacaan di sini. Jika Anda menggunakannya untuk diri sendiri atau tim Anda, menjadi gila. Tapi saya pikir itu akan membingungkan khalayak luas.

Patrick Caldon
sumber
2
(+1) Saya ingin menambahkan bahwa definisi skewness dalam hal momen ketiga bukan yang paling diterima saat ini karena hanya dapat diterapkan pada distribusi dengan ekor ringan. Definisi kemiringan yang lebih modern didasarkan pada kuantil, beberapa di antaranya dapat ditemukan di sini .
1
@amoeba Apakah itu? Halaman Wikipedia untuk MAD mendefinisikannya sebagai Median (| Xi - Median (X) |), yaitu 0,1 dengan data yang diberikan.
Upper_Case
@Upper_Case Terima kasih. Saya salah (lupa sekitar 5-5 = 0 istilah). Saya akan menghapus komentar saya di atas untuk tidak membingungkan pembaca di masa depan!
Amuba mengatakan Reinstate Monica
4

Menggunakan jumlah MAD untuk mengasumsikan bahwa distribusi yang mendasarinya simetris (penyimpangan di atas median dan di bawah median dianggap sama). Jika data Anda condong, ini jelas salah: ini akan membuat Anda melebih-lebihkan variabilitas sebenarnya dari data Anda.

Untungnya, Anda dapat memilih salah satu dari beberapa alternatif untuk orang gila yang sama-sama kuat, hampir sama mudah untuk dihitung dan yang tidak menganggap simetrisitas.

Lihatlah Rousseeuw dan Croux 1992 . Konsep-konsep ini dijelaskan dengan baik di sini dan diimplementasikan di sini . Kedua penaksir ini adalah anggota dari apa yang disebut kelas statistik-U, yang di dalamnya terdapat teori yang dikembangkan dengan baik.

pengguna603
sumber
1

"Dalam makalah ini dipelajari indeks asimetri yang lebih akurat. Secara khusus, penggunaan varian kiri dan kanan diusulkan dan indeks asimetri berdasarkan padanya diperkenalkan. Beberapa contoh menunjukkan kegunaannya. Pertanyaan mengevaluasi lebih akurat dispersi data tentang rata-rata muncul di semua distribusi probabilitas non-simetris.Ketika distribusi populasi non-simetris, rata-rata dan varians (atau standar deviasi) dari satu set data tidak memberikan ide yang tepat tentang distribusi data, khususnya bentuk dan simetri. Dikatakan bahwa rata-rata, varian kiri yang diusulkan (atau standar deviasi kiri) dan varian kanan (atau standar deviasi kanan) menggambarkan set data yang lebih akurat. "

Tautan

deepML
sumber
3
Anda mengutip abstrak sebuah makalah dan memberikan sesuatu yang menyerupai URL (saya mengambil kebebasan untuk memperbaiki tautan). Itu bukan tipe jawaban yang kita cari di sini; Saya mendorong Anda untuk mengedit jawaban Anda dan mencoba menambahkan beberapa komentar Anda sendiri tentang mengapa tautan ini membantu menjawab pertanyaan. Jawabannya akan jauh lebih baik jika Anda menjelaskan bagaimana indeks asimetri ini terkait dengan kecenderungan tengah rata-rata dan MAD.
MånsT