Dalam pekerjaan saya, ketika individu merujuk pada nilai "rata-rata" dari suatu kumpulan data, mereka biasanya merujuk pada rata-rata aritmatika (yaitu "rata-rata", atau "nilai yang diharapkan"). Jika saya memberikan rata- rata geometris , orang-orang akan cenderung berpikir saya sinis atau tidak bermanfaat, karena definisi "rata-rata" sudah diketahui sebelumnya.
Saya mencoba menentukan apakah ada beberapa definisi "median" dari kumpulan data. Misalnya, salah satu definisi yang diberikan oleh seorang kolega untuk menemukan median dari kumpulan data dengan sejumlah elemen adalah:
Algoritma 'A'
- Bagilah jumlah elemen menjadi dua, bulatkan ke bawah.
- Nilai itu adalah indeks median.
- yaitu Untuk set berikut, mediannya adalah
5
. [4, 5, 6, 7]
Ini tampaknya masuk akal, meskipun aspek pembulatan ke bawah tampaknya agak sewenang-wenang.
Algoritma 'B'
Dalam kasus apa pun, kolega lain telah mengusulkan algoritme terpisah, yang ada dalam buku teks statistik miliknya (perlu mendapatkan nama dan penulis):
- Membagi jumlah elemen dengan 2, dan menyimpan salinan bilangan bulat bulat-ke atas dan ke bawah. Beri nama mereka
n_lo
dann_hi
. - Ambil rata-rata aritmatika elemen di
n_lo
dann_hi
. - yaitu Untuk set berikut, mediannya adalah
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Ini tampaknya salah, karena nilai median, 5.5
dalam hal ini, sebenarnya tidak dalam kumpulan data asli. Ketika kami bertukar algoritma 'A' untuk 'B' dalam beberapa kode uji, itu rusak parah (seperti yang kami harapkan).
Pertanyaan
Apakah ada "nama" formal untuk kedua pendekatan ini dalam menghitung median dari kumpulan data? yaitu "median lebih rendah dari dua" versus "median rata-rata-elemen-dan-buat-data baru"?
sumber
Jawaban:
TL; DR - Saya tidak mengetahui nama-nama tertentu yang diberikan kepada penaksir median sampel yang berbeda. Metode untuk memperkirakan statistik sampel dari beberapa data agak cerewet dan sumber daya yang berbeda memberikan definisi yang berbeda.
Dalam Pengantar Statistik Matematika Matematika Hogg, McKean dan Craig , penulis memberikan definisi median sampel acak , tetapi hanya dalam kasus bahwa ada jumlah sampel ganjil! Penulis menulis
Algoritma B memiliki properti yang setengah data jatuh di atas nilai, dan setengah data jatuh di bawah nilai. Mengingat definisi median dari variabel acak , ini tampak bagus.
Apakah penaksir tertentu memecahkan tes unit adalah properti tes unit - tes unit yang ditulis terhadap estimator tertentu tidak selalu berlaku ketika Anda mengganti estimator lain. Dalam kasus yang ideal, tes unit dipilih karena mencerminkan kebutuhan kritis organisasi Anda, bukan karena argumen doktriner atas definisi.
sumber
Apa yang dikatakan @ Scorax.
Sebagai soal fakta, secara mengejutkan ada banyak definisi tentang kuantil umum, jadi khususnya juga median. Hyndman & Fan (1996, The American Statistician ) memberikan gambaran yang, AFAIK, masih komprehensif. Jenis yang berbeda tidak memiliki nama resmi. Anda mungkin harus jelas tentang jenis yang Anda gunakan. (Seringkali tidak membuat perbedaan besar dengan set data ukuran realistis.)
Perhatikan bahwa umumnya diterima memiliki nilai yang tidak ada dalam data yang ditetapkan sebagai median, misalnya, 5,5 sebagai median untuk (4, 5, 6, 7). Ini adalah perilaku default untuk R:
R's
median()
secara default menggunakan tipe 7 dari klasifikasi Hyndman & Fan.sumber
Dalam
mad
fungsi R , ia menggunakan istilah "lo-median" untuk menggambarkan algoritme Anda A, "hi-median" untuk menggambarkan pembulatan sebagai gantinya, dan hanya "median" untuk menggambarkan algoritme B Anda (yang, seperti yang telah dicatat orang lain sejauh ini) definisi paling umum).Anehnya, tidak ada opsi seperti itu pada
median()
fungsi R ! (Tapi Rquantile()
punyatype
untuk kontrol yang baik.)sumber