Ini adalah fakta yang diketahui bahwa median tahan terhadap pencilan. Jika itu masalahnya, kapan dan mengapa kita akan menggunakan mean di tempat pertama?
Satu hal yang bisa saya pikirkan adalah memahami keberadaan outlier yaitu jika median jauh dari rata-rata, maka distribusinya miring dan mungkin data perlu diperiksa untuk memutuskan apa yang harus dilakukan dengan outlier. Apakah ada kegunaan lain?
mathematical-statistics
mean
median
Legenda
sumber
sumber
Jawaban:
Sangat menarik untuk dicatat bahwa untuk ukuran variasi (spread, dispersi), ada estimator yang sangat kuat yaitu 0,98 seefisien deviasi standar, yaitu perbedaan rata-rata Gini. Ini adalah perbedaan mutlak rata-rata antara dua pengamatan. [Anda harus melipatgandakan deviasi standar sampel dengan konstanta untuk memperkirakan kuantitas yang sama dengan selisih rata-rata Gini.] Ukuran efisien kecenderungan sentral adalah estimator Hodges-Lehmann, yaitu median dari semua cara berpasangan. Kami akan menggunakannya lebih banyak jika interpretasinya lebih sederhana.
sumber
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. Program C, Fortran, atau Ratfor yang sepele bisa dipanggil oleh R untuk membuatnya menyala cepat. Paket ICSNP dalam R memiliki implementasi yang cukup efisien denganhl.loc
fungsinya. Untuk N = 5000 itu 2,66 kali lebih cepat dari kode di atas (total waktu 1,5 detik). Akan menyenangkan juga mendapatkan interval kepercayaan secara efisien.Sudah banyak jawaban bagus, tetapi, mundur dan sedikit lebih mendasar, saya katakan itu karena jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan. Rata-rata dan median menjawab berbagai pertanyaan - terkadang yang satu sesuai, kadang yang lain.
Sangat sederhana untuk mengatakan bahwa median harus digunakan ketika ada outlier, atau untuk distribusi miring, atau apa pun. Tapi itu tidak selalu terjadi. Ambil penghasilan - hampir selalu dilaporkan dengan median, dan biasanya itu benar. Tetapi jika Anda melihat kekuatan belanja seluruh komunitas, itu mungkin tidak benar. Dan dalam beberapa kasus, bahkan mode mungkin yang terbaik (khususnya jika data dikelompokkan).
sumber
Ketika suatu nilai adalah sampah bagi kami, kami menyebutnya "outliar" dan ingin analisis kuat terhadapnya (dan lebih suka median); ketika nilai yang sama menarik, kami menyebutnya "ekstrem" dan ingin analisis menjadi peka terhadapnya (dan lebih disukai berarti). Dialektika...
Berarti bereaksi sama terhadap pergeseran nilai terlepas dari di mana dalam distribusi terjadi pergeseran. Misalnya,
1 2 3 4 5
Anda dapat meningkatkan nilai apa pun sebesar 2 - peningkatan rata-rata akan sama. Reaksi Median kurang "konsisten": tambahkan 2 ke titik data 4 atau 5, dan median tidak akan meningkat; tetapi tambahkan 2 ke poin 2 - sehingga pergeserannya melebihi median, dan median berubah secara dramatis (jauh dari rata-rata akan berubah).Berarti selalu tepat berada. Median tidak; misalnya, dalam set nilai
1 2 3 4
apa pun antara 2 dan 3 dapat disebut median. Dengan demikian, analisis berdasarkan median tidak selalu merupakan solusi unik.Mean adalah lokus jumlah minimum penyimpangan kuadrat. Banyak tugas pengoptimalan berdasarkan aljabar linier (termasuk regresi OLS yang terkenal) meminimalkan kesalahan kuadrat ini dan karenanya menyiratkan konsep rata-rata. Median lokus jumlah minimum penyimpangan mutlak. Teknik optimasi untuk meminimalkan kesalahan semacam itu adalah non-linear dan lebih kompleks / kurang dikenal.
sumber
Ada banyak jawaban untuk pertanyaan ini. Ini salah satu yang Anda mungkin tidak akan melihat di tempat lain jadi saya memasukkannya di sini karena saya percaya itu berkaitan dengan topik. Orang sering percaya bahwa karena median dianggap sebagai ukuran yang kuat sehubungan dengan outlier, itu juga kuat untuk sebagian besar segalanya. Bahkan, itu juga dianggap kuat untuk bias dalam distribusi miring. Dua sifat kuat dari median ini sering diajarkan bersama. Orang mungkin mencatat bahwa distribusi miring yang mendasari juga cenderung menghasilkan sampel kecil yang terlihat seperti mereka memiliki outlier dan kebijaksanaan konvensional adalah bahwa seseorang menggunakan median dalam situasi seperti itu.
(hanya demonstrasi bahwa ini miring dan bentuk dasarnya)
Sekarang, mari kita lihat apa yang terjadi jika kita sampel dari distribusi ini berbagai ukuran sampel dan menghitung median dan bermaksud untuk melihat apa perbedaan di antara mereka.
Seperti yang bisa dilihat dari plot di atas, median (merah) jauh lebih sensitif terhadap n daripada rata-rata. Ini bertentangan dengan beberapa kebijaksanaan konvensional tentang penggunaan median dengan ns rendah, terutama jika distribusinya mungkin miring. Dan, itu memperkuat titik bahwa nilai tengah adalah nilai yang diketahui sementara median peka terhadap sifat-sifat lainnya, satu jika yang menjadi n.
Analisis ini mirip dengan Miller, J. (1988). Peringatan tentang waktu reaksi tengah. Jurnal Psikologi Eksperimental: Persepsi dan Kinerja Manusia , 14 (3): 539-543.
REVISI
Setelah memikirkan masalah kemiringan, saya menganggap bahwa dampak pada median mungkin hanya karena dalam sampel kecil Anda memiliki probabilitas lebih besar bahwa median berada di ujung distribusi, sedangkan mean akan hampir selalu tertimbang oleh nilai-nilai lebih dekat ke nilai mode. Oleh karena itu, mungkin jika seseorang hanya mengambil sampel dengan kemungkinan pencilan maka mungkin hasil yang sama akan terjadi.
Jadi saya berpikir tentang situasi di mana outlier dapat terjadi dan eksperimen dapat mencoba untuk menghilangkannya.
Jika pencilan terjadi secara konsisten, seperti satu dalam setiap pengambilan sampel data tunggal, maka median kuat terhadap efek pencilan ini dan kisah konvensional tentang penggunaan median berlaku.
Tapi biasanya tidak seperti itu.
Orang mungkin menemukan pencilan dalam sangat sedikit sel percobaan dan memutuskan untuk menggunakan median, bukan rata-rata dalam kasus ini. Sekali lagi, median lebih kuat tetapi dampak sebenarnya relatif kecil karena ada sangat sedikit outlier. Ini pasti akan menjadi kasus yang lebih umum daripada yang di atas tetapi efek menggunakan median mungkin akan sangat kecil sehingga tidak masalah.
Mungkin outlier yang lebih umum mungkin merupakan komponen acak dari data. Sebagai contoh, rata-rata sebenarnya dan standar deviasi populasi mungkin sekitar 0 tetapi ada persentase waktu kita sampel dari populasi outlier di mana rata-rata adalah 3. Pertimbangkan simulasi berikut, di mana hanya populasi seperti itu sampel yang memvariasikan sampel bervariasi ukuran.
Median dalam warna merah dan rata-rata dalam warna hitam. Ini adalah temuan yang mirip dengan distribusi yang miring.
Dalam contoh yang relatif praktis tentang penggunaan median untuk menghindari efek outlier kita dapat menemukan situasi di mana estimasi dipengaruhi oleh n lebih banyak ketika median digunakan daripada ketika rata-rata digunakan.
sumber
Dari rata-rata, mudah untuk menghitung jumlah dari semua item, misalnya jika Anda mengetahui pendapatan rata-rata populasi dan ukuran populasi, Anda dapat segera menghitung total pendapatan seluruh populasi.
Rata-rata sangat mudah untuk menghitung
O(n)
kompleksitas waktu. Menghitung median dalam waktu linier dimungkinkan tetapi membutuhkan lebih banyak pemikiran. Solusi yang jelas membutuhkan penyortiran memilikiO(n log n)
kompleksitas waktu yang lebih buruk ( ).Dan saya berspekulasi bahwa ada alasan lain mengapa rata-rata lebih populer daripada median:
sumber
"Sudah diketahui bahwa median tahan terhadap pencilan. Jika itu masalahnya, kapan dan mengapa kita akan menggunakan mean pada awalnya?"
Dalam kasus seseorang tahu tidak ada outlier, misalnya ketika seseorang tahu proses menghasilkan data (misalnya dalam statistik matematika).
Satu harus menunjukkan sepele, bahwa, dua kuantitas ini (rata-rata dan median) sebenarnya tidak mengukur hal yang sama dan bahwa sebagian besar pengguna meminta yang pertama ketika apa yang mereka benar-benar tertarik pada yang terakhir (poin ini digambarkan dengan baik oleh tes Wilcoxon berbasis median yang lebih mudah ditafsirkan daripada tes-t).
Lalu, ada kasus-kasus di mana untuk beberapa alasan kebetulan atau lain, beberapa peraturan memaksakan penggunaan maksudnya.
sumber
Jika kekhawatiran adalah tentang keberadaan pencilan, ada beberapa cara langsung untuk memeriksa data Anda.
Pencilan, hampir secara definisi, masuk ke data kami ketika sesuatu berubah baik dalam proses menghasilkan data atau dalam proses mengumpulkan data. yaitu data tidak lagi homogen. Jika data Anda tidak homogen, maka mean dan median tidak masuk akal, karena Anda mencoba memperkirakan kecenderungan sentral dari dua set data terpisah yang telah dicampur bersama.
Metode terbaik untuk memastikan homogenitas adalah memeriksa proses pengumpulan dan pengumpulan data untuk memastikan bahwa semua data Anda berasal dari satu set proses. Tidak ada yang mengalahkan sedikit kekuatan otak, di sini.
Sebagai pemeriksaan sekunder, Anda dapat beralih ke salah satu dari beberapa tes statistik: chi-squared, Dixon Q-test, Grubb's test atau diagram kontrol / diagram perilaku proses (biasanya X-bar R atau XmR). Pengalaman saya adalah bahwa, ketika data Anda dapat dipesan seperti yang dikumpulkan, bagan perilaku proses lebih baik dalam mendeteksi outlier daripada tes outlier. Penggunaan ini untuk grafik mungkin agak kontroversial, tapi saya percaya itu sepenuhnya konsisten dengan maksud asli Shewhart dan ini adalah penggunaan yang secara eksplisit dianjurkan oleh Donald Wheeler. Apakah Anda menggunakan tes pencilan atau bagan perilaku proses, ingatlah bahwa "pencilan" yang terdeteksi hanyalah potensi pensinyalannon-homogenitas yang perlu diteliti lebih lanjut. Jarang masuk akal untuk membuang poin data jika Anda tidak memiliki penjelasan tentang mengapa mereka outlier.
Jika Anda menggunakan R, paket outlier menyediakan tes outlier, dan untuk bagan perilaku proses ada qcc , IQCC dan qAnalyst. Saya memiliki preferensi pribadi untuk penggunaan dan output dari paket qcc.
sumber
Kapan Anda mungkin menginginkannya?
Contoh dari keuangan:
Ketika membentuk portofolio yang terdiversifikasi, memutuskan untuk berinvestasi apa dan berapa banyak, rata-rata dan kovarians pengembalian cenderung menjadi faktor penting dalam masalah optimasi Anda.
sumber