Mengapa median usia statistik yang lebih baik daripada usia rata-rata?

41

teks alternatif

teks alternatif

Jelas median tampaknya menjadi statistik pilihan ketika datang ke usia.

Saya tidak dapat menjelaskan kepada diri saya sendiri mengapa aritmatika berarti statistik yang lebih buruk. Kenapa gitu?

Awalnya diposting di sini karena saya tidak tahu situs ini ada.

Lazer
sumber
4
Sepertinya Anda sudah memiliki jawaban yang masuk akal di situs lain?
Shane
1
@ Shane: Tapi mungkin situs yang berbeda berpotensi untuk mendapatkan jawaban yang berbeda dari sudut pandang yang berbeda?
Whuber

Jawaban:

42

Statistik tidak memberikan jawaban yang baik untuk pertanyaan ini, menurut pendapat saya. Nilai rata-rata bisa relevan dalam studi mortalitas misalnya, tetapi usia tidak semudah mengukur seperti yang Anda pikirkan. Orang yang lebih tua, orang yang buta huruf, dan orang-orang di beberapa negara dunia ketiga cenderung membulatkan usia mereka menjadi kelipatan 5 atau 10, misalnya.

Median lebih tahan terhadap kesalahan seperti itu daripada rata-rata. Selain itu, usia rata-rata biasanya 20 - 40, tetapi orang dapat hidup sampai 100 dan lebih (proporsi yang meningkat dan nyata dari populasi negara-negara modern sekarang hidup di atas 100). Orang-orang dari usia tersebut memiliki 1,5 hingga 4 kali pengaruh pada rata-rata daripada mereka pada median dibandingkan dengan orang-orang yang sangat muda. Dengan demikian, median statistik yang sedikit lebih mutakhir mengenai distribusi usia suatu negara dan sedikit lebih mandiri dari tingkat kematian dan harapan hidup daripada rata-rata.

Akhirnya, median memberi kita gambaran yang sedikit lebih baik tentang bagaimana distribusi usia itu sendiri terlihat: ketika Anda melihat median 35, misalnya, Anda tahu bahwa setengah populasi lebih tua dari 35 dan Anda dapat menyimpulkan beberapa hal tentang tingkat kelahiran, usia orang tua, dan sebagainya; tetapi jika rata - rata adalah 35, Anda tidak bisa mengatakan sebanyak itu, karena 35 itu bisa dipengaruhi oleh populasi yang besar pada usia 70 tahun, misalnya, atau mungkin kesenjangan populasi dalam beberapa rentang usia karena perang lama atau epidemi.

Dengan demikian, untuk alasan demografis, bukan statistik, median tampak lebih layak untuk peran nilai omnibus untuk merangkum usia populasi orang yang relatif besar.

whuber
sumber
1
Saya pikir Anda berarti "Median lebih tahan terhadap kesalahan seperti itu daripada rata-rata". Saya setuju dengan komentar Anda, dan saya percaya sensus AS biasanya melaporkan median untuk banyak kategori dalam laporan resmi (bukan hanya usia) karena pada dasarnya semua alasan yang sama. Penghasilan mungkin bahkan merupakan contoh yang lebih baik daripada usia untuk menggambarkan hal-hal tersebut.
Andy W
Anda telah mengganti fakta — rata-rata peka terhadap outlier / distribusi miring — untuk pernyataan nilai tentang preferensi untuk median daripada rata-rata. Akibatnya, Anda telah berpendapat bahwa mean tidak dipilih karena itu bukan median (sama seperti mereka yang mengatakan seseorang hanya boleh menggunakan mean pada distribusi simetris, yaitu ketika mean dan median sama).
Alexis
1
@Alexis saya tidak mengikuti kritik Anda. Bisakah Anda menguraikan? Lagi pula, jawaban ini memberikan jauh lebih banyak daripada "fakta": jawaban ini mengandung beberapa di antaranya, bersama dengan analisis implikasinya. Dan khusus untuk "pernyataan nilai" apa yang Anda referensikan?
whuber
Kekhawatiran saya adalah bahwa karakteristik faktual dari rata-rata dan median (misalnya, yang peka terhadap outlier, yaitu "Orang-orang dari usia tersebut memiliki 1,5 hingga 4 kali pengaruh pada rata-rata daripada mereka pada median dibandingkan dengan orang yang sangat muda.") menjadi diterjemahkan ke dalam nilai - nilai tentang nilai mereka, yaitu "median memberi kita gambaran yang sedikit lebih baik tentang seperti apa distribusi usia itu sendiri". Yang pertama adalah fakta, kemudian penilaian atas fakta itu. Perhatian saya adalah dengan beralih di antara keduanya. Lebih lanjut: stats.stackexchange.com/questions/96371/…
Alexis
1
@Alexis Harap diingat bahwa pertanyaan ini bukan tentang penggunaan rata-rata atau median secara umum, tetapi dalam utilitas mereka dalam menilai distribusi usia. Harap dicatat bahwa sejak awal jawaban saya mengakui tidak ada obat mujarab: bahwa nilai tengah berguna dan relevan untuk tujuan tertentu. Saya tidak berpikir saya melakukan dosa yang Anda tuduhkan kepada saya, yang merupakan penerapan samar "lebih baik": Saya telah dengan hati-hati menetapkan bagaimana median dan makna berbeda dalam konteks ini . Kedengarannya bagi saya seperti Anda memiliki masalah untuk belasan tentang sarana vs median, tapi ini bukan tempat untuk melakukannya.
whuber
16

John memberi Anda jawaban yang bagus di situs saudari itu.

Satu aspek yang tidak ia sebutkan secara eksplisit adalah ketahanan: median sebagai ukuran lokasi pusat lebih baik daripada rata-rata karena memiliki titik rincian yang lebih tinggi (50%) sedangkan rata-rata memiliki yang sangat rendah 0 (lihat wikipedia untuk detail ).

Secara intuitif, itu berarti bahwa pengamatan buruk individu tidak condong median sedangkan mereka lakukan untuk mean.

Dirk Eddelbuettel
sumber
9
Rincian bukan masalah untuk statistik deskriptif seluruh populasi.
whuber
12

Inilah jawaban saya yang pertama kali diposting di math.stackexchange:

Median adalah apa yang sebenarnya ada dalam benak banyak orang ketika mereka mengatakan "jahat." Lebih mudah untuk menafsirkan median: setengah populasi di atas usia ini dan setengah di bawah. Berarti sedikit lebih halus.

Orang mencari simetri dan terkadang memaksakan simetri ketika tidak ada. Distribusi usia dalam suatu populasi jauh dari simetris, sehingga rata-rata bisa menyesatkan. Distribusi usia adalah sesuatu seperti piramida. Banyak anak, tidak banyak lansia. (Atau setidaknya begitulah keadaannya dalam keadaan mantap. Di AS, generasi baby boom pasca-Perang Dunia II telah mendistorsi distribusi ini seiring bertambahnya usia. Beberapa orang menyebut ini "kuadratkan piramida" karena para boomer telah membuat atas piramida yang lebih luas dari sebelumnya.)

Dengan distribusi asimetris, mungkin lebih baik untuk melaporkan median karena merupakan statistik simetris. Median simetris bahkan jika distribusi sampling tidak.

John D. Cook
sumber
Dalam arti apa median statistik "simetris"? Ini jelas bukan kasus bahwa distribusi cenderung didistribusikan secara simetris tentang median mereka (atau tentang cara mereka). Jika yang Anda maksud hanyalah apa yang Anda tulis dalam komentar lain bahwa "median membagi populasi menjadi dua" (yang mendefinisikan median), argumen Anda terdengar melingkar: median baik karena median adalah median!
whuber
7

Mengapa kapak lebih baik dari kapak?

Itu mirip dengan pertanyaan Anda. Mereka hanya bermaksud dan melakukan hal-hal yang berbeda. Jika seseorang berbicara tentang median maka kisah yang mereka coba sampaikan, model yang mereka coba terapkan pada data, berbeda dari satu dengan sarana.

John
sumber
4

Sebagai contoh konkret, pertimbangkan usia rata-rata untuk Kongo (DRC) dan Jepang. Satu hancur oleh perang saudara, yang lain berkembang dengan baik dengan populasi yang menua. Rata-rata tidak terlalu menarik untuk perbandingan apel dengan apel. Di sisi lain, median dapat informatif sebagai ukuran kecenderungan sentral karena menurut definisi kita memiliki setengah di atas, setengah di bawah. Artikel wikipedia tentang Piramida Penduduk mungkin mencerahkan (lihat bagian tentang tonjolan remaja, populasi yang menua).

ars
sumber
3

Repositori Data Kesehatan Masyarakat di Amerika Serikat bergerak menuju AGE dalam format kenaikan lima tahun dalam tahun-tahun karena dampak dari peraturan HIPAA mengenai penyamaran dan penyembunyian data yang disengaja untuk alasan privasi pribadi.

Mengingat tantangan ini terhadap apa yang telah terjadi di masa lalu (sebelum HIPAA) tingkat yang cukup dari elemen data pengukuran berdasarkan perbedaan antara tanggal lahir dan tanggal kematian, kita mungkin perlu mempertimbangkan kembali AGE sebagai variabel skala yang dapat dijelaskan secara parametrik sama sekali dalam set data kesehatan masyarakat, yang mendukung model yang menggambarkan AGE secara non-parametrik, sebagai tingkat ukuran ordinal. Saya tahu ini mungkin tampak "di atas" untuk banyak faksi dalam komunitas informatika biomedis, tetapi ide ini mungkin memiliki beberapa kelebihan dalam hal "interpretasi" seperti yang dijelaskan dalam komentar di atas.

Bagaimana dengan semua kekuatan analitis yang tersedia untuk pendekatan non-parametrik? Ya, memang benar bahwa setiap orang dari kita hampir secara universal akan mencoba menerapkan teknik GLM (model linier umum) ke variabel yang menampilkan dirinya kepada kita dalam distribusi yang berperilaku seperti AGE.

Pada saat yang sama bentuk distribusi itu dan bagaimana bentuk itu ditentukan oleh efek interaksi multi-dimensi pada centroid multi-dimensi dan sub-grup centroid yang ada dalam distribusi, harus dipertimbangkan. Apa yang harus dilakukan dengan set data yang sangat kompleks ini?

Ketika elemen data gagal memenuhi "asumsi model", kami semakin memindai (saya katakan di seberang, bukan ke bawah; kita harus menjadi pengusaha dengan kesempatan yang sama, setiap alat berasal dari pabrik dengan bentuk mengikuti aturan fungsi) daftar dari model lain yang mungkin untuk menemukan yang "tidak gagal" tes asumsi.

Dalam format saat ini dalam set data kesehatan masyarakat, kami benar-benar perlu (sebagai komunitas visualisasi data) untuk menghasilkan model yang lebih standar untuk menangani AGE dalam peningkatan lima tahun (5YI). Pilihan saya untuk visualisasi data AGE (diberikan format 5YI baru) adalah menggunakan histogram dan plot kotak dan kumis. Ya, ini berarti median. (Tidak ada permainan kata-kata yang dimaksudkan!)

Kadang-kadang gambar benar-benar bernilai seribu kata, dan abstrak adalah ringkasan dari seribu kata. Plot kotak dan kumis menunjukkan "bentuk" dari distribusi sebagai representasi simbolis yang bermakna dari histogram pada tingkat resolusi ikonik. Membandingkan distribusi kenaikan usia lima tahun dengan menunjukkan kotak "berdampingan" dan plot kumis di mana orang dapat secara instan membandingkan pola dari 75 ke 50 (median) ke ntile ke-25 yang lebih rendah, akan membuat "standar universal" yang elegan untuk membandingkan AGE lintas Dunia. Bagi kita yang terus menikmati sensasi representasi data melalui mekanisme tekstual tampilan tabular, diagram "batang dan daun" juga dapat digunakan saat digunakan sebagai elemen grafis visual beranimasi dalam "grafik mini"

Usia sudah dewasa. Perlu dieksplorasi lebih lanjut dengan algoritma komputasi yang lebih kuat yang sekarang tersedia.

Richard E. Gilder
sumber
1
Ini adalah posting yang ditulis dengan baik, tetapi tampaknya tidak ada hubungannya dengan pertanyaan awal.
Andy W
Saya pikir itu secara tidak langsung tetapi dengan tepat menjawab maksud pertanyaan yang sebenarnya, @Andy. Kesalahannya, jika ada, terletak pada pertanyaan itu sendiri, yang ambigu karena tidak merinci arti di mana rata-rata mungkin "lebih buruk" daripada median. Oleh karena itu, jawaban yang bagus harus mengeksplorasi hal ini dan mempertimbangkan tujuan meringkas distribusi usia dengan satu statistik. Di sini, ini secara alami mengarah pada diskusi tentang apa arti "usia" dan seberapa tepat untuk membandingkan distribusi usia.
whuber
3

Saya tidak berpikir ada alasan deskriptif yang baik untuk memilih median daripada rata-rata untuk distribusi usia. Ada satu kepraktisan saat membandingkan data yang dilaporkan.

Banyak negara melaporkan populasi mereka dalam interval usia 5 tahun dengan band top terbuka. Hal ini menyebabkan beberapa kesulitan menghitung rata-rata dari interval, terutama untuk interval termuda (dipengaruhi oleh angka kematian bayi), "interval" atas (apa rata-rata dari 80 "interval"?), Dan interval dekat atas ( rata-rata setiap interval biasanya lebih rendah dari tengah).

Jauh lebih mudah untuk memperkirakan median dengan interpolasi dalam interval median, sering mendekati dengan mengasumsikan distribusi usia datar atau trapezium dalam interval tersebut (tingkat kematian di banyak negara relatif rendah di sekitar usia rata-rata, menjadikan ini perkiraan yang lebih masuk akal daripada mediannya). adalah untuk muda atau tua).

Henry
sumber
3

Untuk memberikan jawaban yang bermanfaat, pertanyaan awal mengharuskan kita mengetahui pertanyaan di balik pertanyaan. Dengan kata lain, "Mengapa Anda menginginkan semacam statistik ringkasan yang membandingkan distribusi usia di berbagai negara?" Median mungkin yang paling berguna untuk beberapa pertanyaan. Berarti mungkin yang paling bermanfaat bagi orang lain. Dan mungkin ada pertanyaan di mana "persen di atas (atau di bawah) usia tertentu" akan menjadi statistik yang paling berguna.

Emil Friedman
sumber
2

Anda mendapatkan jawaban yang baik di sini, tetapi izinkan saya menambahkan 2 sen saya. Saya bekerja di bidang farmakometrik, yang menangani hal-hal seperti volume darah, tingkat eliminasi, tingkat efek obat dasar, efek obat maksimum, dan parameter seperti itu.

Kami membuat perbedaan antara variabel yang dapat mengambil nilai plus atau minus, versus nilai yang hanya bisa positif. Contoh variabel yang dapat mengambil nilai apa pun, plus atau minus, adalah efek obat, yang bisa positif, nol, atau negatif. Contoh dari variabel yang hanya dapat secara realistis positif adalah volume darah atau tingkat eliminasi obat.

Kami memodelkan hal-hal ini dengan distribusi yang biasanya normal atau lognormal, normal untuk yang bernilai apa pun, dan lognormal untuk yang hanya positif. Bilangan lognormal adalah bilangan E yang diambil dengan kekuatan bilangan yang terdistribusi normal, dan itulah sebabnya hanya bisa positif.

Untuk variabel yang terdistribusi normal, median, rata-rata, dan mode adalah angka yang sama, jadi tidak masalah yang Anda gunakan. Namun, untuk variabel terdistribusi secara lognormal, rata-rata lebih besar dari median dan mode, sehingga tidak benar-benar sangat berguna. Kenyataannya, median adalah tempat normal yang mendasarinya memiliki rata-rata, jadi itu adalah ukuran yang jauh lebih menarik.

Karena usia (mungkin) tidak pernah bisa negatif, distribusi lognormal mungkin merupakan deskripsi yang lebih baik daripada normal, jadi median (E ke rata-rata dari normal yang mendasarinya) lebih berguna.

Mike Dunlavey
sumber
5
Distribusi usia tentu tidak masuk akal.
Rob Hyndman
1
Saya tidak berpikir Anda dapat menyimpulkan usia adalah log-biasanya didistribusikan hanya dari fakta bahwa itu selalu positif. Gamma dan distribusi Weibull juga selalu positif, jadi mengapa tidak memilih yang itu?
nico
@Rob: @nico: Saya yakin Anda benar. Itu contoh yang buruk. Biasanya kami memodelkan parameter farmakometrik seperti volume dan clearance.
Mike Dunlavey
2

Saya telah diajarkan bahwa median harus digunakan dengan jangkauan dan maksud dengan standar deviasi. Ketika kita berbicara tentang usia, saya pikir rentang adalah cara yang lebih relevan untuk mengekspresikan penyebaran, dan lebih mudah dimengerti bagi kebanyakan orang. Misalnya dalam populasi penelitian, usia rata-rata adalah 53 (SD 5.4) atau usia rata-rata adalah 48 (kisaran 23-77). Untuk alasan itu, saya lebih suka menggunakan median daripada rata-rata. Tapi saya akan sangat tertarik ke sini apa yang akan dikatakan ahli statistik atau statistik tentang menggunakan mean dengan range? Saya melihat ini sedikit di makalah ilmiah.

Susanne
sumber
Selamat datang di CV, Susanne. Jika Anda telah memposting ini dalam upaya untuk mendapatkan jawaban, silakan hapus dan kirim kembali sebagai pertanyaan baru. Panduan tentang cara menggunakan situs ini tersedia di pusat bantuan kami .
whuber
1

Jawaban John pada math.stackexchange dapat dilihat sebagai berikut:

Ketika Anda memiliki distribusi miring, median mungkin statistik ringkasan yang lebih baik daripada rata-rata.

Perhatikan bahwa ketika dia mengatakan bahwa ada lebih banyak bayi daripada orang dewasa, dia pada dasarnya menyarankan bahwa distribusi usia adalah distribusi yang miring.


sumber
Sebenarnya saya pikir saat ini kecenderungan di banyak negara lebih ke arah manula, bukan titik.
JM bukan ahli statistik
Mungkin, ini condong ke arah lain tetapi titik umum berdiri. Untuk distribusi miring, median mungkin lebih masuk akal daripada rata-rata.
Saya baru saja memperbarui jawaban saya di math.stackexchange untuk menekankan hal itu. Orang mencari simetri dan dapat memaksakan simetri secara tidak benar ketika tidak ada. Saat Anda melaporkan median, Anda memberikan jawaban yang simetris - median membagi populasi menjadi setengah - meskipun distribusinya tidak simetris.
John D. Cook
Jawaban ini selalu tampak agak tersembunyi bagi saya: ketika distribusi tidak condong (yaitu mereka simetris), rata-rata sama dengan median, sehingga mengatakan bahwa median adalah "lebih baik" ketika distribusi miring adalah cara backdoor mengatakan "hanya menggunakan median. "
Alexis
1

Saya berharap usia rata-rata akan dipengaruhi oleh pencilan dalam kumpulan data Anda sementara ini bukan kasus untuk median usia. Mari kita ambil contoh dari kumpulan data pasien yang divaksinasi: 1,2,3,4,4,5,6,6,6,78 tahun rata-rata adalah: 11,5 dan usia rata-rata pasien ini adalah 4,5. usia rata-rata ini telah dipengaruhi oleh outlier 78. median adalah yang terbaik saat berurusan dengan set data dari distribusi yang miring.

Eustache
sumber
Lihat tanggapan saya terhadap User28.
Alexis
0

Tentu saja dalam kasus analisis demografis, saya akan berpikir bahwa rata-rata dan median akan berharga, terutama dalam kombinasi satu sama lain, jika Anda mencari outlier atau bidang pertumbuhan yang mungkin salah label oleh median saja. Dalam komunitas dengan komunitas pensiunan besar atau di daerah dengan ledakan tingkat kelahiran, median saja mungkin tidak memberi Anda gambaran keseluruhan, dan di situlah mean, sebagai perbandingan, bisa sangat berguna.

Matt L.
sumber