Haruskah mean digunakan ketika data miring?

14

Teks pengantar statistik terapan yang sering digunakan membedakan mean dari median (sering dalam konteks statistik deskriptif dan memotivasi peringkasan kecenderungan sentral menggunakan mean, median dan mode) dengan menjelaskan bahwa mean sensitif terhadap pencilan dalam data sampel dan / atau untuk distribusi populasi yang miring, dan ini digunakan sebagai pembenaran untuk pernyataan bahwa median lebih disukai ketika data tidak simetris.

Sebagai contoh:

Ukuran kecenderungan tendensi sentral yang terbaik untuk sekumpulan data yang diberikan seringkali tergantung pada bagaimana nilai-nilai tersebut didistribusikan .... Ketika data tidak simetris, median seringkali merupakan ukuran tendensi sentral yang terbaik. Karena rerata sensitif terhadap pengamatan ekstrem, ia ditarik ke arah nilai data terluar, dan sebagai hasilnya mungkin berakhir berlebihan atau terlalu mengempis. "
—Pagano dan Gauvreau, (2000) Principles of Biostatistics , 2nd ed. (P&G sudah dekat, BTW, tidak memilihnya sendiri .)

Para penulis mendefinisikan "tendensi sentral" sebagai berikut: "Karakteristik yang paling sering diselidiki dari sekumpulan data adalah pusatnya, atau titik pengamatan yang cenderung mengelompok."

Ini menurut saya sebagai cara yang tidak terlalu blak-blakan untuk mengatakan hanya menggunakan median, titik , karena hanya menggunakan mean ketika data / distribusi simetris adalah hal yang sama dengan mengatakan hanya menggunakan mean ketika sama dengan median. Sunting: whuber dengan tepat menunjukkan bahwa saya menyatukan ukuran kuat dari kecenderungan sentral dengan median. Jadi penting untuk diingat bahwa saya sedang mendiskusikan framing spesifik dari rata-rata aritmatika versus median dalam pengantar statistik terapan (di mana, selain mode, ukuran lain dari kecenderungan sentral tidak termotivasi).

Daripada menilai kegunaan mean dengan seberapa jauh ia menyimpang dari perilaku median, seharusnya kita tidak hanya memahami ini sebagai dua ukuran sentralitas yang berbeda? Dengan kata lain, peka terhadap kemiringan adalah fitur dari nilai tengah. Orang bisa saja secara sah berdebat "baik median tidak baik karena sebagian besar tidak sensitif terhadap kemiringan, jadi hanya gunakan ketika itu sama dengan rata-rata."

(Mode ini cukup masuk akal tidak terlibat dengan pertanyaan ini.)

Alexis
sumber
3
Secara pribadi, saya suka memasukkan kedua ukuran, rata-rata dan median, yang akan memberikan pembaca tidak hanya beberapa informasi tentang kecenderungan sentral, tetapi juga gagasan tentang seberapa miring data.
bdeonovic
1
Beberapa konteks dan klarifikasi akan meningkatkan pertanyaan ini. (1) Dalam konteks apa teks-teks pengantar (hipotetis) ini menegaskan bahwa rerata lebih disukai, dan untuk tujuan apa? (2) Persisnya bagaimana teks-teks ini "menilai kegunaan rata-rata dengan seberapa jauh ia menyimpang dari perilaku median"? Bisakah Anda memberikan contoh atau kutipan sehingga kami dapat lebih memahami?
whuber
2
Pada satu titik Anda salah menafsirkan: median bukan satu-satunya statistik yang kuat untuk beberapa pengamatan ekstrem. Jadi rata-rata didakwa atas dasar (sering) karakteristik yang tidak diinginkan dan tidak dengan perbandingan dengan median. Tetapi saya juga mendapatkan sedikit perhatian Anda, dan mungkin itu terkait dengan penyatuan asimetri dan keberadaan outlier secara implisit yang terjadi dalam kutipan ini. Sayangnya disalahpahami, karena meskipun memiliki outlier kadang-kadang menyiratkan asimetri, yang sebaliknya seringkali tidak benar.
whuber
7
Pembaca di sini akan menemukan utas menarik berikut: Jika rata-rata sangat sensitif, mengapa menggunakannya terlebih dahulu?
gung - Reinstate Monica
2
Mengingat definisi yang diberikan untuk "kecenderungan sentral", tampak jelas mengapa rata-rata tidak akan menjadi ukuran yang berguna di hadapan kemiringan atau outlier. Apakah Anda benar-benar ingin memperkirakan gagasan kecenderungan sentral ini tampaknya menjadi masalah lain!
jsk

Jawaban:

16

Saya tidak setuju dengan saran tersebut sebagai aturan flat out. (Ini tidak umum untuk semua buku.)

Masalahnya lebih halus.

Jika Anda benar-benar tertarik untuk membuat kesimpulan tentang rata-rata populasi, mean sampel setidaknya merupakan penaksir yang tidak bias, dan memiliki sejumlah keunggulan lainnya. Faktanya, lihat teorema Gauss-Markov - linear terbaik.

Jika variabel Anda sangat condong, masalahnya datang dengan 'linier' - dalam beberapa situasi, semua penaksir linier mungkin buruk, jadi yang terbaik dari mereka mungkin masih tidak menarik, sehingga penaksir rata-rata yang tidak linier mungkin lebih baik , tetapi perlu mengetahui sesuatu (atau bahkan cukup banyak) tentang distribusi. Kami tidak selalu memiliki kemewahan itu.

Jika Anda belum tentu tertarik pada kesimpulan yang berkaitan dengan populasi berarti (" berapakah usia tipikal? ", Katakan atau apakah ada pergeseran lokasi yang lebih umum dari satu populasi ke populasi lain, yang mungkin diutarakan dalam hal lokasi mana pun, atau bahkan dari uji satu variabel yang secara stokastik lebih besar dari yang lain), kemudian menyatakan bahwa dalam hal populasi berarti tidak diperlukan atau kemungkinan kontraproduktif (dalam kasus terakhir).

Jadi saya pikir harus memikirkan:

  • apa pertanyaan aktual anda? Apakah populasi berarti hal yang baik untuk ditanyakan dalam situasi ini?

  • apa cara terbaik untuk menjawab pertanyaan yang diberikan situasi (kemiringan dalam kasus ini)? Apakah menggunakan sampel berarti pendekatan terbaik untuk menjawab pertanyaan kami yang menarik?

Mungkin Anda memiliki pertanyaan tidak secara langsung tentang rata-rata populasi, namun demikian sampel berarti adalah cara yang baik untuk melihat pertanyaan-pertanyaan itu ... atau sebaliknya - pertanyaannya mungkin tentang mean populasi tetapi sampel berarti mungkin bukan cara terbaik untuk jawab pertanyaan itu.

Glen_b -Reinstate Monica
sumber
14

Dalam kehidupan nyata, kita harus memilih ukuran kecenderungan sentral berdasarkan pada apa yang kita coba ketahui; dan ya, terkadang mode adalah hal yang tepat untuk digunakan. Kadang-kadang itu berarti Winsorized atau dipangkas. Terkadang rata-rata geometris atau harmonis. Terkadang tidak ada ukuran tendensi sentral yang baik.

Buku intro ditulis dengan buruk, mereka mengajarkan bahwa ada aturan buku masak untuk diterapkan.

Ambil penghasilan. Ini sering sangat miring dan kadang-kadang memiliki outlier; tentu saja, kita biasanya melihat "pendapatan rata-rata" dilaporkan. Tetapi terkadang outlier dan kemiringan itu penting. Itu tergantung pada konteks dan membutuhkan pemikiran.

Saya menulis lebih banyak tentang ini

Peter Flom - Pasang kembali Monica
sumber
2
Peter, terima kasih banyak atas tautannya ke posting Anda. Saya berharap teks intro mengambil 1 hingga 2 halaman ruang yang diperlukan untuk memberikan pertimbangan yang bijaksana seperti yang Anda berikan di sana.
Alexis
4
Saya belum menulis satu tetapi saya ingin menyisipkan sedikit pertahanan teks pengantar. Teks pengantar apa pun yang mencoba memberikan tampilan yang sepenuhnya bernuansa yang akan dikenali oleh para profesional berpengalaman akan dinyalakan oleh hampir semua penerima yang dituju; bahkan tidak akan dipublikasikan.
Nick Cox
5
Komentar substantif: ketika nilai-nilai aditif sehingga total masuk akal (misalnya) fisik, rerata adalah ringkasan alami terlepas dari distribusi nilai-nilai individu.
Nick Cox
3
@NickCox Saya pikir teks pengantar bisa melakukan jauh lebih baik daripada yang mereka lakukan. Untuk mean vs median, ini bahkan bukan argumen matematis - argumen ini substantif. Teks pengantar perlu memberi tahu orang yang membacanya bahwa mereka tidak benar-benar memenuhi syarat untuk melakukan analisis data.
Peter Flom - Reinstate Monica
2
@jsk. Oh oke. Saya pikir mereka perlu diberi tahu secara eksplisit dalam statistik karena banyak orang tampaknya berpikir mereka siap setelah satu kursus dalam analisis data; memang, di banyak bidang (psikologi, sosiologi, kedokteran, dll) orang diharapkan untuk melakukan analisis data setelah hanya 1, 2, atau kadang-kadang 3 program. Dalam program PhD, misalnya, mereka diharapkan menulis disertasi. Mengapa lebih jelas di bidang lain? Saya tidak yakin.
Peter Flom - Reinstate Monica
6

Bahkan ketika data miring (misalnya, biaya perawatan kesehatan dihitung bersamaan dengan uji klinis, di mana beberapa pasien total nol biaya karena mereka meninggal tepat setelah pendaftaran, dan beberapa pasien dikenakan biaya ton karena efek samping dari program perawatan kesehatan tertentu yang sedang diselidiki ), rerata mungkin lebih disukai daripada median untuk setidaknya satu alasan praktis: mengalikan biaya rata-rata untuk jumlah pasien memberi pembuat keputusan perawatan kesehatan dampak anggaran dari teknologi perawatan kesehatan yang diteliti.

Carlo Lazzaro
sumber
Menyuarakan komentar Carlo: jika Anda tertarik pada total populasi (misalnya, dalam pengambilan sampel audit), maka Anda tertarik pada rata-rata, periode. Jika tidak ada bedanya seberapa condong atau rawan distribusi, Anda hanya perlu menghadapinya. Anda tidak dapat Winsorize, trim, jika tidak menghapus outlier, atau mengubah log. Stratifikasi dapat sangat membantu; dalam kasus outlier ekstrim, mereka harus dibuat sebagai strata untuk diri mereka sendiri.
Peter Westfall
3

Saya pikir apa yang hilang dari pertanyaan serta kedua jawaban sejauh ini adalah bahwa diskusi rata-rata vs median dalam buku statistik pengantar umumnya terjadi pada awal bab tentang bagaimana meringkas distribusi secara numerik. Berbeda dengan statistik inferensial, ini umumnya tentang menghasilkan statistik deskriptif yang akan menjadi cara yang berguna untuk menyampaikan informasi tentang distribusi data secara numerik dibandingkan dengan grafis. Konteks di mana ini muncul adalah bagian statistik deskriptif dari laporan atau artikel jurnal di mana umumnya tidak ada ruang untuk ringkasan grafis dari semua variabel dalam dataset Anda. Jika distribusi miring, tampaknya masuk akal dalam konteks ini untuk memilih median daripada rata-rata. Jika distribusinya simetris tanpa outlier,

jsk
sumber
1
Poin Anda tentang statistik deskriptif versus inferensial bermanfaat. Tetapi Anda secara efektif mengatakan (untuk statistik deskriptif) "hanya gunakan mean ketika itu sama dengan median." Jika distribusinya miring, maka median melakukan pekerjaan yang buruk untuk mewakili konsep per kapita , bukan? Jadi bukankah sama validnya untuk mengambil posisi "hanya menggunakan median ketika itu sama dengan mean?" Itu sama sewenang-wenangnya, dan tampaknya mengarahkan perhatian menjauh dari makna substantif dari tindakan-tindakan ini (untuk orang-orang yang mempelajarinya).
Alexis
1
Tujuannya bukan untuk mewakili konsep per kapita? Kata siapa? Mengapa mengandaikan itu bukan tujuan?
Alexis
1
Saya tidak melihat adanya kekasaran atau "akting kaget" yang datang dari OP ... katakan saja ...
Nick Stauner
1
Saya tidak melihat bahwa itu penting apakah Anda melakukan statistik inferensial atau deskriptif dalam hal ini. Jika ukuran deskriptif yang tepat dari kecenderungan sentral adalah median, maka kesimpulan harus diambil tentang median; jika mean, maka mean. Jika tidak ada ukuran deskriptif yang masuk akal, maka tidak ada ukuran inferensial yang masuk akal juga.
Peter Flom - Reinstate Monica
1
@PeterFlom Bagaimana dengan kasus-kasus di mana tujuan akhir tidak inferensi? Saya setuju bahwa kesesuaian statistik deskriptif tergantung sepenuhnya pada alasan untuk menghasilkan statistik. Gagasan bahwa ada kemungkinan bahwa "tidak ada ukuran deskriptif masuk akal" tampaknya menyiratkan bahwa statistik deskriptif tidak dapat secara inheren bermakna. Saya berpendapat bahwa dalam hampir semua kasus, median masuk akal sebagai ukuran pusat distribusi dengan definisi. Apakah masuk akal atau tidak untuk tujuan lain adalah pertanyaan lain.
jsk