Apakah median lebih adil dari rata-rata?

17

Baru-baru ini saya membaca saran bahwa Anda harus menggunakan median bukan berarti untuk menghilangkan outlier. Contoh: Artikel berikut ini http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

memiliki 16 ulasan saat ini:

review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 

Karena mereka menggunakan Mean , artikel itu mendapat 4 bintang tetapi jika mereka akan menggunakan Median itu akan mendapatkan 5 bintang.

Bukankah median hakim yang lebih adil?


Eksperimen menunjukkan bahwa kesalahan median selalu lebih besar dari rata-rata. Apakah median lebih buruk?

library(foreach)

#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)

#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))

#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)

res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)

Roland Kofler
sumber
3
Mengapa memiliki peringkat bintang 5 lebih adil? Ada 6/16 ulasan yang memberi peringkat lebih rendah ...
nico
Ok, daripada yang Anda pikirkan Mean adalah rata-rata yang tepat? mayoritas mengatakan 5. 60% lebih banyak sisanya 6/16 mengatakan demikian.
Roland Kofler
2
Jika saya harus memberikan evaluasi diskrit, melihat 16 ulasan yang akan saya berikan 4, bukan 5, karena-hingga 5 akan berarti bahwa semua (atau sebagian besar) suara adalah 5. 6/16 adalah ~ 40% , yang tidak bisa diabaikan.
nico
8
Jadi, pada dasarnya, saya pikir tidak ada yang berarti atau median yang baik. Menampilkan (seperti Amazon) bargraph dengan suara yang berbeda adalah pilihan terbaik. Juga, menarik untuk menunjukkan bahwa peringkat 1-5 online tidak selalu adil ... youtube-global.blogspot.com/2009/09/…
nico
1
@nico: skor penuh dengan jebakan, apa yang Anda tunjukkan adalah salah satu argumen dari artikel saya di sini: objektorient.blogspot.com/2010/09/...
Roland Kofler

Jawaban:

26

Masalahnya adalah Anda belum benar-benar mendefinisikan apa artinya memiliki peringkat yang baik atau adil. Anda menyarankan dalam komentar pada jawaban @Vinnin bahwa Anda tidak menyukainya jika satu ulasan buruk menghapus suatu item. Tetapi membandingkan dua item di mana satu memiliki "catatan sempurna" dan yang lainnya memiliki satu ulasan buruk, mungkin perbedaan itu harus tercermin.

Ada kontinum (dimensi tinggi) keseluruhan antara median dan mean. Anda dapat memesan suara berdasarkan nilai, lalu mengambil rata-rata tertimbang dengan bobot tergantung pada posisi dalam urutan itu. Rata-rata sesuai dengan semua bobot yang sama, median sesuai dengan hanya satu atau dua entri di tengah yang mendapatkan bobot bukan nol, rata-rata yang dipangkas sesuai dengan memberikan semua kecuali pasangan pertama dan terakhir dengan bobot yang sama, tetapi Anda juga bisa memutuskan untuk menimbang bobotnya. th dari n sampel dengan berat 1kn atauexp(-(2k-1-n)211+(2k1n)2, untuk melempar sesuatu secara acak ke sana. Mungkin rata-rata tertimbang di mana outlier mendapatkan lebih sedikit berat, tetapi masih dalam jumlah yang tidak nol, dapat menggabungkan sifat median dan rata-rata yang baik?exp((2k1n)2n2)

Erik P.
sumber
22

Jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan.

Berarti dan median menjawab pertanyaan yang berbeda. Jadi mereka memberikan jawaban yang berbeda. Bukannya yang satu lebih "adil" dari yang lain. Median sering digunakan dengan data yang sangat miring (seperti pendapatan). Tetapi, bahkan di sana, kadang-kadang yang terbaik adalah berarti. Dan kadang-kadang Anda tidak ingin APAPUN ukuran kecenderungan sentral.

Selain itu, setiap kali Anda memberikan ukuran kecenderungan sentral, Anda harus memberikan beberapa ukuran penyebaran. Pasangan yang paling umum adalah deviasi mean-standar dan rentang median-interkuartil. Dalam data ini, hanya memberikan median 5 adalah, saya pikir, menyesatkan, atau, setidaknya, tidak informatif. Median juga akan menjadi 5 jika setiap suara tunggal adalah 5.

Peter Flom - Pasang kembali Monica
sumber
5
Poin Anda tentang ukuran penyebaran adalah kunci di sini. Itulah salah satu masalah yang terus muncul dalam diskusi ini, dengan nama lain, dan juga terkait dengan diskusi Erik P tentang skema pembobotan.
Wayne
8

Jika satu-satunya pilihan adalah bilangan bulat dalam kisaran 1 hingga 5, bisakah ada yang dianggap pencilan?

α=0,05

Grubbs test for one outlier

data:  review  G = 2.0667, U = 0.6963,
p-value = 0.2153 alternative
hypothesis: lowest value 1 is an outlier
kmm
sumber
karena hanya satu orang dalam contoh Anda dapat mengubah hasilnya secara dramatis. jika orang tersebut percaya bahwa buku tersebut memiliki topik yang berbeda, kesalahannya akan mengubah peringkat
Roland Kofler
2
Apakah pendapat seseorang itu salah? Saya berpendapat bahwa kegagalan tersebut mencoba menarik kesimpulan yang bermakna berdasarkan satu statistik dari hanya beberapa titik data. Sebagaimana dicatat oleh @nico di atas, Amazon menunjukkan grafik batang dari semua peringkat.
kmm
5

Eksperimen menunjukkan bahwa kesalahan median selalu lebih besar dari rata-rata.

Itu tergantung pada fungsi biaya yang Anda gunakan.

MSE diminimalkan dengan rata-rata. Karena itu jika Anda menggunakan median MSE akan selalu lebih buruk dari rata-rata.

NAMUN, jika Anda akan menggunakan kesalahan absolut, daripada rata-rata akan lebih buruk!

Penjelasan yang bagus mengenai hal ini dapat ditemukan di sini: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/

Pilihannya tergantung pada masalah dan preferensi Anda. Jika Anda tidak ingin outlier memiliki dampak besar pada posisi "titik sentral", maka Anda memilih median. Jika Anda peduli tentang outlier, Anda memilih yang jahat.

Dominik Deja
sumber
4

Hanya berpikir sebentar:

Jika Anda mengasumsikan bahwa setiap peringkat diambil dari variabel kontinu laten, maka Anda dapat menentukan median variabel kontinu yang mendasari bunga ini sebagai nilai bunga Anda, daripada rata-rata distribusi yang mendasarinya ini. Jika distribusinya simetris, maka mean dan median akhirnya akan memperkirakan jumlah yang sama. Dimana distribusinya miring, median akan berbeda dari rata-rata. Dalam hal ini, menurut saya, median akan lebih sesuai dengan apa yang kita anggap sebagai nilai khas. Ini berjalan beberapa cara untuk memahami mengapa pendapatan rata-rata dan harga rumah rata-rata biasanya dilaporkan daripada rata-rata.

Namun, ketika Anda memiliki sejumlah kecil nilai diskrit, median berkinerja buruk.

Mungkin, Anda bisa menggunakan beberapa prosedur estimasi kepadatan dan kemudian mengambil median itu, atau menggunakan median interpolasi.

Jeromy Anglim
sumber
2

Hal yang hebat tentang menggunakan median untuk peringkat bintang adalah bahwa pengguna yang pintar (sadar akan penggunaan median) tidak akan "bermain-main" dengan sistem:

Jika seorang pengguna yang rasional berpikir bahwa peringkat yang tepat adalah 4 bintang, tetapi saat ini memiliki 4,5 bintang, maka cara terbaik untuk mendapatkan empat bintang (dengan asumsi ada lebih dari enam suara) adalah dengan memilih 1 bintang dalam sistem penilaian berbasis rata-rata .

Sementara dalam sistem berbasis median, pilihan rasional pengguna adalah memilih secara tepat jumlah bintang yang menurut pengguna harus dimiliki oleh produk.

Ini semacam lelang harga kedua yang setara untuk sistem peringkat bintang.

Stephane Bersier
sumber
Argumen yang menarik, analog penggunaan fungsi skor yang tepat
kjetil b halvorsen
Tidak terlalu. Jawaban saya menunjukkan contoh di mana nilai tinggi atau rendah baru akan menggeser median.
Nick Cox
Tidak cukup apa ? Ngomong-ngomong, jawaban yang bagus.
Stephane Bersier
Strategi rasional bisa jadi untuk memilih ekstrem. Biasanya, selalu ada pertanyaan tentang seberapa banyak yang diketahui tentang suara orang lain.
Nick Cox
@NickCox hanya jika Anda benar-benar ingin yang ekstrim menjadi peringkat yang tepat. Jadi saya percaya apa yang saya tulis berhasil dalam semua kasus. Dan itu tidak bertentangan dengan jawaban Anda.
Stephane Bersier
1

Beberapa jawaban bagus masih menyisakan ruang untuk lebih banyak komentar.

Pertama, tidak ada yang keberatan dengan gagasan bahwa median dimaksudkan untuk menghilangkan outlier, tetapi saya akan memenuhi syarat. Makna yang dimaksudkan jelas, tetapi mudah untuk data nyata menjadi lebih rumit. Paling-paling, median dimaksudkan untuk mengurangi atau mengabaikan outlier, tetapi bahkan itu tidak dijamin. Misalnya, dengan peringkat 1 1 1 5 5 5 median dan berarti setuju pada 3, jadi semua mungkin tampak baik. Tetapi 5 tambahan akan memberi tip median ke 5 dan 1 tambahan akan memberi tip median ke 1. Rata-rata akan bergerak sekitar 0,286 dalam setiap kasus. Oleh karena itu rata-rata di sini lebih tahan daripada median. Contohnya dapat dianggap tidak biasa, tetapi tidak keterlaluan. Intinya tidak asli, secara alami. Satu tempat dibuat adalah di Mosteller, F. dan Tukey, JW 1977. Analisis dan Regresi Data. Reading, MA: Addison-Wesley, hlm.34-35.

Kedua, cara-cara yang telah dipangkas telah disebutkan dan gagasan itu layak mendapat dorongan yang lebih besar. Berarti dan median tidak perlu menjadi alternatif nyata sehingga analis harus memilih (memilih) satu atau yang lain. Anda dapat mempertimbangkan semua cara yang mungkin dipangkas berdasarkan pemangkasan sejumlah nilai tertentu di setiap ekor . Tabel tersebut menunjukkan sebagai # jumlah nilai yang termasuk dalam perhitungan rata-rata:

  +----------------------------+
  | number    #   trimmed mean |
  |----------------------------|
  |      0   16         4.0625 |
  |      1   14       4.214286 |
  |      2   12       4.416667 |
  |      3   10            4.6 |
  |      4    8           4.75 |
  |      5    6       4.833333 |
  |      6    4              5 |
  |      7    2              5 |
  +----------------------------+

Gambaran utama di sini adalah bahwa Anda dapat memilih tingkat diskonto Anda (abaikan begitu banyak nilai di setiap ekor sebagai tersangka) sebagai semacam asuransi terhadap risiko tidak aktif karena nilai-nilai ekstrem. Apa yang saya lihat adalah gradien yang cukup mulus antara mean dan median, yang diharapkan di sini karena nilai yang mungkin 1, 2, 3, 4, 5 semuanya ada dalam data. Lompatan besar dalam urutan diharapkan dengan pencilan yang terisolasi.

Tidak ada kewajiban dengan cara yang dipangkas untuk memotong angka yang sama di setiap ekor, tapi saya tidak akan memperluas itu.

Ketiga, contohnya adalah ulasan Amazon. Konteks selalu relevan dalam memandu bagaimana Anda ingin data dirangkum . Dalam hal ulasan Amazon, jawaban terbaik adalah membaca ulasan! Karena nilai tinggi dan rendah dapat sama dengan alasan palsu (secara implisit: penulis buku ini adalah teman saya) dan / atau tidak relevan dengan keputusan Anda (secara eksplisit: penjual kembali memperlakukan saya dengan buruk), tidak ada bagi saya hal yang jelas implikasi untuk bagaimana meringkas data seperti itu, dan memang dengan menunjukkan kepada Anda distribusi Amazon secara maksimal informatif.

Keempat, dan yang paling dasar tetapi juga yang paling mendasar, siapa yang membuat Anda memilih? Kadang-kadang mean dan median keduanya harus dilaporkan (dan, seperti yang dikatakan, grafik distribusi juga).

Nick Cox
sumber