- Jika Anda melihat Wolfram Alpha
- Atau halaman Wikipedia ini Daftar negara berdasarkan usia rata-rata
Jelas median tampaknya menjadi statistik pilihan ketika datang ke usia.
Saya tidak dapat menjelaskan kepada diri saya sendiri mengapa aritmatika berarti statistik yang lebih buruk. Kenapa gitu?
Awalnya diposting di sini karena saya tidak tahu situs ini ada.
Jawaban:
Statistik tidak memberikan jawaban yang baik untuk pertanyaan ini, menurut pendapat saya. Nilai rata-rata bisa relevan dalam studi mortalitas misalnya, tetapi usia tidak semudah mengukur seperti yang Anda pikirkan. Orang yang lebih tua, orang yang buta huruf, dan orang-orang di beberapa negara dunia ketiga cenderung membulatkan usia mereka menjadi kelipatan 5 atau 10, misalnya.
Median lebih tahan terhadap kesalahan seperti itu daripada rata-rata. Selain itu, usia rata-rata biasanya 20 - 40, tetapi orang dapat hidup sampai 100 dan lebih (proporsi yang meningkat dan nyata dari populasi negara-negara modern sekarang hidup di atas 100). Orang-orang dari usia tersebut memiliki 1,5 hingga 4 kali pengaruh pada rata-rata daripada mereka pada median dibandingkan dengan orang-orang yang sangat muda. Dengan demikian, median statistik yang sedikit lebih mutakhir mengenai distribusi usia suatu negara dan sedikit lebih mandiri dari tingkat kematian dan harapan hidup daripada rata-rata.
Akhirnya, median memberi kita gambaran yang sedikit lebih baik tentang bagaimana distribusi usia itu sendiri terlihat: ketika Anda melihat median 35, misalnya, Anda tahu bahwa setengah populasi lebih tua dari 35 dan Anda dapat menyimpulkan beberapa hal tentang tingkat kelahiran, usia orang tua, dan sebagainya; tetapi jika rata - rata adalah 35, Anda tidak bisa mengatakan sebanyak itu, karena 35 itu bisa dipengaruhi oleh populasi yang besar pada usia 70 tahun, misalnya, atau mungkin kesenjangan populasi dalam beberapa rentang usia karena perang lama atau epidemi.
Dengan demikian, untuk alasan demografis, bukan statistik, median tampak lebih layak untuk peran nilai omnibus untuk merangkum usia populasi orang yang relatif besar.
sumber
John memberi Anda jawaban yang bagus di situs saudari itu.
Satu aspek yang tidak ia sebutkan secara eksplisit adalah ketahanan: median sebagai ukuran lokasi pusat lebih baik daripada rata-rata karena memiliki titik rincian yang lebih tinggi (50%) sedangkan rata-rata memiliki yang sangat rendah 0 (lihat wikipedia untuk detail ).
Secara intuitif, itu berarti bahwa pengamatan buruk individu tidak condong median sedangkan mereka lakukan untuk mean.
sumber
Inilah jawaban saya yang pertama kali diposting di math.stackexchange:
Median adalah apa yang sebenarnya ada dalam benak banyak orang ketika mereka mengatakan "jahat." Lebih mudah untuk menafsirkan median: setengah populasi di atas usia ini dan setengah di bawah. Berarti sedikit lebih halus.
Orang mencari simetri dan terkadang memaksakan simetri ketika tidak ada. Distribusi usia dalam suatu populasi jauh dari simetris, sehingga rata-rata bisa menyesatkan. Distribusi usia adalah sesuatu seperti piramida. Banyak anak, tidak banyak lansia. (Atau setidaknya begitulah keadaannya dalam keadaan mantap. Di AS, generasi baby boom pasca-Perang Dunia II telah mendistorsi distribusi ini seiring bertambahnya usia. Beberapa orang menyebut ini "kuadratkan piramida" karena para boomer telah membuat atas piramida yang lebih luas dari sebelumnya.)
Dengan distribusi asimetris, mungkin lebih baik untuk melaporkan median karena merupakan statistik simetris. Median simetris bahkan jika distribusi sampling tidak.
sumber
Mengapa kapak lebih baik dari kapak?
Itu mirip dengan pertanyaan Anda. Mereka hanya bermaksud dan melakukan hal-hal yang berbeda. Jika seseorang berbicara tentang median maka kisah yang mereka coba sampaikan, model yang mereka coba terapkan pada data, berbeda dari satu dengan sarana.
sumber
Sebagai contoh konkret, pertimbangkan usia rata-rata untuk Kongo (DRC) dan Jepang. Satu hancur oleh perang saudara, yang lain berkembang dengan baik dengan populasi yang menua. Rata-rata tidak terlalu menarik untuk perbandingan apel dengan apel. Di sisi lain, median dapat informatif sebagai ukuran kecenderungan sentral karena menurut definisi kita memiliki setengah di atas, setengah di bawah. Artikel wikipedia tentang Piramida Penduduk mungkin mencerahkan (lihat bagian tentang tonjolan remaja, populasi yang menua).
sumber
Repositori Data Kesehatan Masyarakat di Amerika Serikat bergerak menuju AGE dalam format kenaikan lima tahun dalam tahun-tahun karena dampak dari peraturan HIPAA mengenai penyamaran dan penyembunyian data yang disengaja untuk alasan privasi pribadi.
Mengingat tantangan ini terhadap apa yang telah terjadi di masa lalu (sebelum HIPAA) tingkat yang cukup dari elemen data pengukuran berdasarkan perbedaan antara tanggal lahir dan tanggal kematian, kita mungkin perlu mempertimbangkan kembali AGE sebagai variabel skala yang dapat dijelaskan secara parametrik sama sekali dalam set data kesehatan masyarakat, yang mendukung model yang menggambarkan AGE secara non-parametrik, sebagai tingkat ukuran ordinal. Saya tahu ini mungkin tampak "di atas" untuk banyak faksi dalam komunitas informatika biomedis, tetapi ide ini mungkin memiliki beberapa kelebihan dalam hal "interpretasi" seperti yang dijelaskan dalam komentar di atas.
Bagaimana dengan semua kekuatan analitis yang tersedia untuk pendekatan non-parametrik? Ya, memang benar bahwa setiap orang dari kita hampir secara universal akan mencoba menerapkan teknik GLM (model linier umum) ke variabel yang menampilkan dirinya kepada kita dalam distribusi yang berperilaku seperti AGE.
Pada saat yang sama bentuk distribusi itu dan bagaimana bentuk itu ditentukan oleh efek interaksi multi-dimensi pada centroid multi-dimensi dan sub-grup centroid yang ada dalam distribusi, harus dipertimbangkan. Apa yang harus dilakukan dengan set data yang sangat kompleks ini?
Ketika elemen data gagal memenuhi "asumsi model", kami semakin memindai (saya katakan di seberang, bukan ke bawah; kita harus menjadi pengusaha dengan kesempatan yang sama, setiap alat berasal dari pabrik dengan bentuk mengikuti aturan fungsi) daftar dari model lain yang mungkin untuk menemukan yang "tidak gagal" tes asumsi.
Dalam format saat ini dalam set data kesehatan masyarakat, kami benar-benar perlu (sebagai komunitas visualisasi data) untuk menghasilkan model yang lebih standar untuk menangani AGE dalam peningkatan lima tahun (5YI). Pilihan saya untuk visualisasi data AGE (diberikan format 5YI baru) adalah menggunakan histogram dan plot kotak dan kumis. Ya, ini berarti median. (Tidak ada permainan kata-kata yang dimaksudkan!)
Kadang-kadang gambar benar-benar bernilai seribu kata, dan abstrak adalah ringkasan dari seribu kata. Plot kotak dan kumis menunjukkan "bentuk" dari distribusi sebagai representasi simbolis yang bermakna dari histogram pada tingkat resolusi ikonik. Membandingkan distribusi kenaikan usia lima tahun dengan menunjukkan kotak "berdampingan" dan plot kumis di mana orang dapat secara instan membandingkan pola dari 75 ke 50 (median) ke ntile ke-25 yang lebih rendah, akan membuat "standar universal" yang elegan untuk membandingkan AGE lintas Dunia. Bagi kita yang terus menikmati sensasi representasi data melalui mekanisme tekstual tampilan tabular, diagram "batang dan daun" juga dapat digunakan saat digunakan sebagai elemen grafis visual beranimasi dalam "grafik mini"
Usia sudah dewasa. Perlu dieksplorasi lebih lanjut dengan algoritma komputasi yang lebih kuat yang sekarang tersedia.
sumber
Saya tidak berpikir ada alasan deskriptif yang baik untuk memilih median daripada rata-rata untuk distribusi usia. Ada satu kepraktisan saat membandingkan data yang dilaporkan.
Banyak negara melaporkan populasi mereka dalam interval usia 5 tahun dengan band top terbuka. Hal ini menyebabkan beberapa kesulitan menghitung rata-rata dari interval, terutama untuk interval termuda (dipengaruhi oleh angka kematian bayi), "interval" atas (apa rata-rata dari 80 "interval"?), Dan interval dekat atas ( rata-rata setiap interval biasanya lebih rendah dari tengah).
Jauh lebih mudah untuk memperkirakan median dengan interpolasi dalam interval median, sering mendekati dengan mengasumsikan distribusi usia datar atau trapezium dalam interval tersebut (tingkat kematian di banyak negara relatif rendah di sekitar usia rata-rata, menjadikan ini perkiraan yang lebih masuk akal daripada mediannya). adalah untuk muda atau tua).
sumber
Untuk memberikan jawaban yang bermanfaat, pertanyaan awal mengharuskan kita mengetahui pertanyaan di balik pertanyaan. Dengan kata lain, "Mengapa Anda menginginkan semacam statistik ringkasan yang membandingkan distribusi usia di berbagai negara?" Median mungkin yang paling berguna untuk beberapa pertanyaan. Berarti mungkin yang paling bermanfaat bagi orang lain. Dan mungkin ada pertanyaan di mana "persen di atas (atau di bawah) usia tertentu" akan menjadi statistik yang paling berguna.
sumber
Anda mendapatkan jawaban yang baik di sini, tetapi izinkan saya menambahkan 2 sen saya. Saya bekerja di bidang farmakometrik, yang menangani hal-hal seperti volume darah, tingkat eliminasi, tingkat efek obat dasar, efek obat maksimum, dan parameter seperti itu.
Kami membuat perbedaan antara variabel yang dapat mengambil nilai plus atau minus, versus nilai yang hanya bisa positif. Contoh variabel yang dapat mengambil nilai apa pun, plus atau minus, adalah efek obat, yang bisa positif, nol, atau negatif. Contoh dari variabel yang hanya dapat secara realistis positif adalah volume darah atau tingkat eliminasi obat.
Kami memodelkan hal-hal ini dengan distribusi yang biasanya normal atau lognormal, normal untuk yang bernilai apa pun, dan lognormal untuk yang hanya positif. Bilangan lognormal adalah bilangan E yang diambil dengan kekuatan bilangan yang terdistribusi normal, dan itulah sebabnya hanya bisa positif.
Untuk variabel yang terdistribusi normal, median, rata-rata, dan mode adalah angka yang sama, jadi tidak masalah yang Anda gunakan. Namun, untuk variabel terdistribusi secara lognormal, rata-rata lebih besar dari median dan mode, sehingga tidak benar-benar sangat berguna. Kenyataannya, median adalah tempat normal yang mendasarinya memiliki rata-rata, jadi itu adalah ukuran yang jauh lebih menarik.
Karena usia (mungkin) tidak pernah bisa negatif, distribusi lognormal mungkin merupakan deskripsi yang lebih baik daripada normal, jadi median (E ke rata-rata dari normal yang mendasarinya) lebih berguna.
sumber
Saya telah diajarkan bahwa median harus digunakan dengan jangkauan dan maksud dengan standar deviasi. Ketika kita berbicara tentang usia, saya pikir rentang adalah cara yang lebih relevan untuk mengekspresikan penyebaran, dan lebih mudah dimengerti bagi kebanyakan orang. Misalnya dalam populasi penelitian, usia rata-rata adalah 53 (SD 5.4) atau usia rata-rata adalah 48 (kisaran 23-77). Untuk alasan itu, saya lebih suka menggunakan median daripada rata-rata. Tapi saya akan sangat tertarik ke sini apa yang akan dikatakan ahli statistik atau statistik tentang menggunakan mean dengan range? Saya melihat ini sedikit di makalah ilmiah.
sumber
Jawaban John pada math.stackexchange dapat dilihat sebagai berikut:
Perhatikan bahwa ketika dia mengatakan bahwa ada lebih banyak bayi daripada orang dewasa, dia pada dasarnya menyarankan bahwa distribusi usia adalah distribusi yang miring.
sumber
Saya berharap usia rata-rata akan dipengaruhi oleh pencilan dalam kumpulan data Anda sementara ini bukan kasus untuk median usia. Mari kita ambil contoh dari kumpulan data pasien yang divaksinasi: 1,2,3,4,4,5,6,6,6,78 tahun rata-rata adalah: 11,5 dan usia rata-rata pasien ini adalah 4,5. usia rata-rata ini telah dipengaruhi oleh outlier 78. median adalah yang terbaik saat berurusan dengan set data dari distribusi yang miring.
sumber
Tentu saja dalam kasus analisis demografis, saya akan berpikir bahwa rata-rata dan median akan berharga, terutama dalam kombinasi satu sama lain, jika Anda mencari outlier atau bidang pertumbuhan yang mungkin salah label oleh median saja. Dalam komunitas dengan komunitas pensiunan besar atau di daerah dengan ledakan tingkat kelahiran, median saja mungkin tidak memberi Anda gambaran keseluruhan, dan di situlah mean, sebagai perbandingan, bisa sangat berguna.
sumber