Saya sedang mengerjakan data yang sangat miring, jadi saya menggunakan median alih-alih mean untuk meringkas kecenderungan sentral. Saya ingin memiliki ukuran dispersi. Sementara saya sering melihat orang-orang melaporkan mean standar deviasi± ± atau median kuartil untuk merangkum kecenderungan sentral, apakah boleh melaporkan median median dispersi absolut (MAD) ? Apakah ada potensi masalah dengan pendekatan ini?
Saya akan menemukan pendekatan ini lebih kompak dan intuitif daripada melaporkan kuartil bawah dan atas, terutama dalam tabel besar penuh angka.
Jawaban:
Saya tidak berpikir median gila sesuai pada umumnya.±
Anda dapat dengan mudah membangun distribusi di mana 50% dari data fraksional lebih rendah daripada median, dan 50% dari data tersebar jauh lebih besar daripada median - misalnya (4,9,4,9,4,9,4,9,4,9,4,9,4,9,1000000,1000000,100000000 , 1000000). The 5Notasi ± 0,10 tampaknya menunjukkan bahwa ada beberapa massa di sekitar (median + mad ~ = 5.10), dan itu tidak selalu terjadi, dan Anda tidak tahu bahwa ada massa besar di dekat 1000000.±
Kuartil / kuantil memberikan gagasan distribusi yang jauh lebih baik dengan mengorbankan angka tambahan - (4.9,5.0.1000000.0.0). Saya ragu itu sepenuhnya kejadian bersama bahwa kemiringan adalah momen ketiga dan bahwa saya tampaknya memerlukan tiga angka / dimensi untuk secara intuitif memvisualisasikan distribusi yang miring.
Yang mengatakan, tidak ada yang salah dengan itu per se - Saya hanya berdebat intuisi dan keterbacaan di sini. Jika Anda menggunakannya untuk diri sendiri atau tim Anda, menjadi gila. Tapi saya pikir itu akan membingungkan khalayak luas.
sumber
Menggunakan jumlah MAD untuk mengasumsikan bahwa distribusi yang mendasarinya simetris (penyimpangan di atas median dan di bawah median dianggap sama). Jika data Anda condong, ini jelas salah: ini akan membuat Anda melebih-lebihkan variabilitas sebenarnya dari data Anda.
Untungnya, Anda dapat memilih salah satu dari beberapa alternatif untuk orang gila yang sama-sama kuat, hampir sama mudah untuk dihitung dan yang tidak menganggap simetrisitas.
Lihatlah Rousseeuw dan Croux 1992 . Konsep-konsep ini dijelaskan dengan baik di sini dan diimplementasikan di sini . Kedua penaksir ini adalah anggota dari apa yang disebut kelas statistik-U, yang di dalamnya terdapat teori yang dikembangkan dengan baik.
sumber
"Dalam makalah ini dipelajari indeks asimetri yang lebih akurat. Secara khusus, penggunaan varian kiri dan kanan diusulkan dan indeks asimetri berdasarkan padanya diperkenalkan. Beberapa contoh menunjukkan kegunaannya. Pertanyaan mengevaluasi lebih akurat dispersi data tentang rata-rata muncul di semua distribusi probabilitas non-simetris.Ketika distribusi populasi non-simetris, rata-rata dan varians (atau standar deviasi) dari satu set data tidak memberikan ide yang tepat tentang distribusi data, khususnya bentuk dan simetri. Dikatakan bahwa rata-rata, varian kiri yang diusulkan (atau standar deviasi kiri) dan varian kanan (atau standar deviasi kanan) menggambarkan set data yang lebih akurat. "
Tautan
sumber