Baru-baru ini saya membaca saran bahwa Anda harus menggunakan median bukan berarti untuk menghilangkan outlier. Contoh: Artikel berikut ini http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
memiliki 16 ulasan saat ini:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Karena mereka menggunakan Mean , artikel itu mendapat 4 bintang tetapi jika mereka akan menggunakan Median itu akan mendapatkan 5 bintang.
Bukankah median hakim yang lebih adil?
Eksperimen menunjukkan bahwa kesalahan median selalu lebih besar dari rata-rata. Apakah median lebih buruk?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Jawaban:
Masalahnya adalah Anda belum benar-benar mendefinisikan apa artinya memiliki peringkat yang baik atau adil. Anda menyarankan dalam komentar pada jawaban @Vinnin bahwa Anda tidak menyukainya jika satu ulasan buruk menghapus suatu item. Tetapi membandingkan dua item di mana satu memiliki "catatan sempurna" dan yang lainnya memiliki satu ulasan buruk, mungkin perbedaan itu harus tercermin.
Ada kontinum (dimensi tinggi) keseluruhan antara median dan mean. Anda dapat memesan suara berdasarkan nilai, lalu mengambil rata-rata tertimbang dengan bobot tergantung pada posisi dalam urutan itu. Rata-rata sesuai dengan semua bobot yang sama, median sesuai dengan hanya satu atau dua entri di tengah yang mendapatkan bobot bukan nol, rata-rata yang dipangkas sesuai dengan memberikan semua kecuali pasangan pertama dan terakhir dengan bobot yang sama, tetapi Anda juga bisa memutuskan untuk menimbang bobotnya. th dari n sampel dengan berat 1k n atauexp(-(2k-1-n)211+(2k−1−n)2 , untuk melempar sesuatu secara acak ke sana. Mungkin rata-rata tertimbang di mana outlier mendapatkan lebih sedikit berat, tetapi masih dalam jumlah yang tidak nol, dapat menggabungkan sifat median dan rata-rata yang baik?exp(−(2k−1−n)2n2)
sumber
Jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan.
Berarti dan median menjawab pertanyaan yang berbeda. Jadi mereka memberikan jawaban yang berbeda. Bukannya yang satu lebih "adil" dari yang lain. Median sering digunakan dengan data yang sangat miring (seperti pendapatan). Tetapi, bahkan di sana, kadang-kadang yang terbaik adalah berarti. Dan kadang-kadang Anda tidak ingin APAPUN ukuran kecenderungan sentral.
Selain itu, setiap kali Anda memberikan ukuran kecenderungan sentral, Anda harus memberikan beberapa ukuran penyebaran. Pasangan yang paling umum adalah deviasi mean-standar dan rentang median-interkuartil. Dalam data ini, hanya memberikan median 5 adalah, saya pikir, menyesatkan, atau, setidaknya, tidak informatif. Median juga akan menjadi 5 jika setiap suara tunggal adalah 5.
sumber
Jika satu-satunya pilihan adalah bilangan bulat dalam kisaran 1 hingga 5, bisakah ada yang dianggap pencilan?
sumber
Itu tergantung pada fungsi biaya yang Anda gunakan.
MSE diminimalkan dengan rata-rata. Karena itu jika Anda menggunakan median MSE akan selalu lebih buruk dari rata-rata.
NAMUN, jika Anda akan menggunakan kesalahan absolut, daripada rata-rata akan lebih buruk!
Penjelasan yang bagus mengenai hal ini dapat ditemukan di sini: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
Pilihannya tergantung pada masalah dan preferensi Anda. Jika Anda tidak ingin outlier memiliki dampak besar pada posisi "titik sentral", maka Anda memilih median. Jika Anda peduli tentang outlier, Anda memilih yang jahat.
sumber
Hanya berpikir sebentar:
Jika Anda mengasumsikan bahwa setiap peringkat diambil dari variabel kontinu laten, maka Anda dapat menentukan median variabel kontinu yang mendasari bunga ini sebagai nilai bunga Anda, daripada rata-rata distribusi yang mendasarinya ini. Jika distribusinya simetris, maka mean dan median akhirnya akan memperkirakan jumlah yang sama. Dimana distribusinya miring, median akan berbeda dari rata-rata. Dalam hal ini, menurut saya, median akan lebih sesuai dengan apa yang kita anggap sebagai nilai khas. Ini berjalan beberapa cara untuk memahami mengapa pendapatan rata-rata dan harga rumah rata-rata biasanya dilaporkan daripada rata-rata.
Namun, ketika Anda memiliki sejumlah kecil nilai diskrit, median berkinerja buruk.
Mungkin, Anda bisa menggunakan beberapa prosedur estimasi kepadatan dan kemudian mengambil median itu, atau menggunakan median interpolasi.
sumber
Hal yang hebat tentang menggunakan median untuk peringkat bintang adalah bahwa pengguna yang pintar (sadar akan penggunaan median) tidak akan "bermain-main" dengan sistem:
Jika seorang pengguna yang rasional berpikir bahwa peringkat yang tepat adalah 4 bintang, tetapi saat ini memiliki 4,5 bintang, maka cara terbaik untuk mendapatkan empat bintang (dengan asumsi ada lebih dari enam suara) adalah dengan memilih 1 bintang dalam sistem penilaian berbasis rata-rata .
Sementara dalam sistem berbasis median, pilihan rasional pengguna adalah memilih secara tepat jumlah bintang yang menurut pengguna harus dimiliki oleh produk.
Ini semacam lelang harga kedua yang setara untuk sistem peringkat bintang.
sumber
Beberapa jawaban bagus masih menyisakan ruang untuk lebih banyak komentar.
Pertama, tidak ada yang keberatan dengan gagasan bahwa median dimaksudkan untuk menghilangkan outlier, tetapi saya akan memenuhi syarat. Makna yang dimaksudkan jelas, tetapi mudah untuk data nyata menjadi lebih rumit. Paling-paling, median dimaksudkan untuk mengurangi atau mengabaikan outlier, tetapi bahkan itu tidak dijamin. Misalnya, dengan peringkat 1 1 1 5 5 5 median dan berarti setuju pada 3, jadi semua mungkin tampak baik. Tetapi 5 tambahan akan memberi tip median ke 5 dan 1 tambahan akan memberi tip median ke 1. Rata-rata akan bergerak sekitar 0,286 dalam setiap kasus. Oleh karena itu rata-rata di sini lebih tahan daripada median. Contohnya dapat dianggap tidak biasa, tetapi tidak keterlaluan. Intinya tidak asli, secara alami. Satu tempat dibuat adalah di Mosteller, F. dan Tukey, JW 1977. Analisis dan Regresi Data. Reading, MA: Addison-Wesley, hlm.34-35.
Kedua, cara-cara yang telah dipangkas telah disebutkan dan gagasan itu layak mendapat dorongan yang lebih besar. Berarti dan median tidak perlu menjadi alternatif nyata sehingga analis harus memilih (memilih) satu atau yang lain. Anda dapat mempertimbangkan semua cara yang mungkin dipangkas berdasarkan pemangkasan sejumlah nilai tertentu di setiap ekor . Tabel tersebut menunjukkan sebagai # jumlah nilai yang termasuk dalam perhitungan rata-rata:
Gambaran utama di sini adalah bahwa Anda dapat memilih tingkat diskonto Anda (abaikan begitu banyak nilai di setiap ekor sebagai tersangka) sebagai semacam asuransi terhadap risiko tidak aktif karena nilai-nilai ekstrem. Apa yang saya lihat adalah gradien yang cukup mulus antara mean dan median, yang diharapkan di sini karena nilai yang mungkin 1, 2, 3, 4, 5 semuanya ada dalam data. Lompatan besar dalam urutan diharapkan dengan pencilan yang terisolasi.
Tidak ada kewajiban dengan cara yang dipangkas untuk memotong angka yang sama di setiap ekor, tapi saya tidak akan memperluas itu.
Ketiga, contohnya adalah ulasan Amazon. Konteks selalu relevan dalam memandu bagaimana Anda ingin data dirangkum . Dalam hal ulasan Amazon, jawaban terbaik adalah membaca ulasan! Karena nilai tinggi dan rendah dapat sama dengan alasan palsu (secara implisit: penulis buku ini adalah teman saya) dan / atau tidak relevan dengan keputusan Anda (secara eksplisit: penjual kembali memperlakukan saya dengan buruk), tidak ada bagi saya hal yang jelas implikasi untuk bagaimana meringkas data seperti itu, dan memang dengan menunjukkan kepada Anda distribusi Amazon secara maksimal informatif.
Keempat, dan yang paling dasar tetapi juga yang paling mendasar, siapa yang membuat Anda memilih? Kadang-kadang mean dan median keduanya harus dilaporkan (dan, seperti yang dikatakan, grafik distribusi juga).
sumber