Teks pengantar statistik terapan yang sering digunakan membedakan mean dari median (sering dalam konteks statistik deskriptif dan memotivasi peringkasan kecenderungan sentral menggunakan mean, median dan mode) dengan menjelaskan bahwa mean sensitif terhadap pencilan dalam data sampel dan / atau untuk distribusi populasi yang miring, dan ini digunakan sebagai pembenaran untuk pernyataan bahwa median lebih disukai ketika data tidak simetris.
Sebagai contoh:
Ukuran kecenderungan tendensi sentral yang terbaik untuk sekumpulan data yang diberikan seringkali tergantung pada bagaimana nilai-nilai tersebut didistribusikan .... Ketika data tidak simetris, median seringkali merupakan ukuran tendensi sentral yang terbaik. Karena rerata sensitif terhadap pengamatan ekstrem, ia ditarik ke arah nilai data terluar, dan sebagai hasilnya mungkin berakhir berlebihan atau terlalu mengempis. "
—Pagano dan Gauvreau, (2000) Principles of Biostatistics , 2nd ed. (P&G sudah dekat, BTW, tidak memilihnya sendiri .)
Para penulis mendefinisikan "tendensi sentral" sebagai berikut: "Karakteristik yang paling sering diselidiki dari sekumpulan data adalah pusatnya, atau titik pengamatan yang cenderung mengelompok."
Ini menurut saya sebagai cara yang tidak terlalu blak-blakan untuk mengatakan hanya menggunakan median, titik , karena hanya menggunakan mean ketika data / distribusi simetris adalah hal yang sama dengan mengatakan hanya menggunakan mean ketika sama dengan median. Sunting: whuber dengan tepat menunjukkan bahwa saya menyatukan ukuran kuat dari kecenderungan sentral dengan median. Jadi penting untuk diingat bahwa saya sedang mendiskusikan framing spesifik dari rata-rata aritmatika versus median dalam pengantar statistik terapan (di mana, selain mode, ukuran lain dari kecenderungan sentral tidak termotivasi).
Daripada menilai kegunaan mean dengan seberapa jauh ia menyimpang dari perilaku median, seharusnya kita tidak hanya memahami ini sebagai dua ukuran sentralitas yang berbeda? Dengan kata lain, peka terhadap kemiringan adalah fitur dari nilai tengah. Orang bisa saja secara sah berdebat "baik median tidak baik karena sebagian besar tidak sensitif terhadap kemiringan, jadi hanya gunakan ketika itu sama dengan rata-rata."
(Mode ini cukup masuk akal tidak terlibat dengan pertanyaan ini.)
Jawaban:
Saya tidak setuju dengan saran tersebut sebagai aturan flat out. (Ini tidak umum untuk semua buku.)
Masalahnya lebih halus.
Jika Anda benar-benar tertarik untuk membuat kesimpulan tentang rata-rata populasi, mean sampel setidaknya merupakan penaksir yang tidak bias, dan memiliki sejumlah keunggulan lainnya. Faktanya, lihat teorema Gauss-Markov - linear terbaik.
Jika variabel Anda sangat condong, masalahnya datang dengan 'linier' - dalam beberapa situasi, semua penaksir linier mungkin buruk, jadi yang terbaik dari mereka mungkin masih tidak menarik, sehingga penaksir rata-rata yang tidak linier mungkin lebih baik , tetapi perlu mengetahui sesuatu (atau bahkan cukup banyak) tentang distribusi. Kami tidak selalu memiliki kemewahan itu.
Jika Anda belum tentu tertarik pada kesimpulan yang berkaitan dengan populasi berarti (" berapakah usia tipikal? ", Katakan atau apakah ada pergeseran lokasi yang lebih umum dari satu populasi ke populasi lain, yang mungkin diutarakan dalam hal lokasi mana pun, atau bahkan dari uji satu variabel yang secara stokastik lebih besar dari yang lain), kemudian menyatakan bahwa dalam hal populasi berarti tidak diperlukan atau kemungkinan kontraproduktif (dalam kasus terakhir).
Jadi saya pikir harus memikirkan:
apa pertanyaan aktual anda? Apakah populasi berarti hal yang baik untuk ditanyakan dalam situasi ini?
apa cara terbaik untuk menjawab pertanyaan yang diberikan situasi (kemiringan dalam kasus ini)? Apakah menggunakan sampel berarti pendekatan terbaik untuk menjawab pertanyaan kami yang menarik?
Mungkin Anda memiliki pertanyaan tidak secara langsung tentang rata-rata populasi, namun demikian sampel berarti adalah cara yang baik untuk melihat pertanyaan-pertanyaan itu ... atau sebaliknya - pertanyaannya mungkin tentang mean populasi tetapi sampel berarti mungkin bukan cara terbaik untuk jawab pertanyaan itu.
sumber
Dalam kehidupan nyata, kita harus memilih ukuran kecenderungan sentral berdasarkan pada apa yang kita coba ketahui; dan ya, terkadang mode adalah hal yang tepat untuk digunakan. Kadang-kadang itu berarti Winsorized atau dipangkas. Terkadang rata-rata geometris atau harmonis. Terkadang tidak ada ukuran tendensi sentral yang baik.
Buku intro ditulis dengan buruk, mereka mengajarkan bahwa ada aturan buku masak untuk diterapkan.
Ambil penghasilan. Ini sering sangat miring dan kadang-kadang memiliki outlier; tentu saja, kita biasanya melihat "pendapatan rata-rata" dilaporkan. Tetapi terkadang outlier dan kemiringan itu penting. Itu tergantung pada konteks dan membutuhkan pemikiran.
Saya menulis lebih banyak tentang ini
sumber
Bahkan ketika data miring (misalnya, biaya perawatan kesehatan dihitung bersamaan dengan uji klinis, di mana beberapa pasien total nol biaya karena mereka meninggal tepat setelah pendaftaran, dan beberapa pasien dikenakan biaya ton karena efek samping dari program perawatan kesehatan tertentu yang sedang diselidiki ), rerata mungkin lebih disukai daripada median untuk setidaknya satu alasan praktis: mengalikan biaya rata-rata untuk jumlah pasien memberi pembuat keputusan perawatan kesehatan dampak anggaran dari teknologi perawatan kesehatan yang diteliti.
sumber
Saya pikir apa yang hilang dari pertanyaan serta kedua jawaban sejauh ini adalah bahwa diskusi rata-rata vs median dalam buku statistik pengantar umumnya terjadi pada awal bab tentang bagaimana meringkas distribusi secara numerik. Berbeda dengan statistik inferensial, ini umumnya tentang menghasilkan statistik deskriptif yang akan menjadi cara yang berguna untuk menyampaikan informasi tentang distribusi data secara numerik dibandingkan dengan grafis. Konteks di mana ini muncul adalah bagian statistik deskriptif dari laporan atau artikel jurnal di mana umumnya tidak ada ruang untuk ringkasan grafis dari semua variabel dalam dataset Anda. Jika distribusi miring, tampaknya masuk akal dalam konteks ini untuk memilih median daripada rata-rata. Jika distribusinya simetris tanpa outlier,
sumber