Apakah ada lebih dari satu formula “median”?

16

Dalam pekerjaan saya, ketika individu merujuk pada nilai "rata-rata" dari suatu kumpulan data, mereka biasanya merujuk pada rata-rata aritmatika (yaitu "rata-rata", atau "nilai yang diharapkan"). Jika saya memberikan rata- rata geometris , orang-orang akan cenderung berpikir saya sinis atau tidak bermanfaat, karena definisi "rata-rata" sudah diketahui sebelumnya.

Saya mencoba menentukan apakah ada beberapa definisi "median" dari kumpulan data. Misalnya, salah satu definisi yang diberikan oleh seorang kolega untuk menemukan median dari kumpulan data dengan sejumlah elemen adalah:

Algoritma 'A'

  • Bagilah jumlah elemen menjadi dua, bulatkan ke bawah.
  • Nilai itu adalah indeks median.
  • yaitu Untuk set berikut, mediannya adalah 5.
  • [4, 5, 6, 7]

Ini tampaknya masuk akal, meskipun aspek pembulatan ke bawah tampaknya agak sewenang-wenang.

Algoritma 'B'

Dalam kasus apa pun, kolega lain telah mengusulkan algoritme terpisah, yang ada dalam buku teks statistik miliknya (perlu mendapatkan nama dan penulis):

  • Membagi jumlah elemen dengan 2, dan menyimpan salinan bilangan bulat bulat-ke atas dan ke bawah. Beri nama mereka n_lodan n_hi.
  • Ambil rata-rata aritmatika elemen di n_lodan n_hi.
  • yaitu Untuk set berikut, mediannya adalah (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Ini tampaknya salah, karena nilai median, 5.5dalam hal ini, sebenarnya tidak dalam kumpulan data asli. Ketika kami bertukar algoritma 'A' untuk 'B' dalam beberapa kode uji, itu rusak parah (seperti yang kami harapkan).

Pertanyaan

Apakah ada "nama" formal untuk kedua pendekatan ini dalam menghitung median dari kumpulan data? yaitu "median lebih rendah dari dua" versus "median rata-rata-elemen-dan-buat-data baru"?

Awan
sumber
16
Saya belum pernah melihat algoritma "A" dianggap sebagai median. Seharusnya tidak menjadi masalah bahwa statistik deskriptif dari kecenderungan pusat data tidak di antara data itu sendiri: setelah semua, sebagian besar berarti tidak ada dalam data, baik. Properti yang lebih mendasar yang kami ingin memiliki median adalah bahwa itu tidak berubah ketika urutan data dibalik, karena memesan data dari terkecil ke terbesar atau terbesar ke terkecil adalah masalah selera sewenang-wenang. Untuk alasan ini sebagian besar penulis mendefinisikan median dalam algoritme "B," karena sejauh ini merupakan prosedur invarian-urutan yang paling sederhana.
Whuber
3
@whuber Algoritma 'A' kadang-kadang disebut median rendah . Ada juga tentu saja median Tinggi yang sesuai. Biasanya median adalah rata-rata dari keduanya (yang mungkin atau mungkin tidak satu elemen dari set median dihitung lebih).
user603
8
Waktu dan tempat yang tepat untuk mengulangi komentar bahwa dua nilai sentral dalam sampel yang dipesan dengan jumlah pengamatan yang sama - seperti 3 dan 4 dalam 1, 2, 3, 4, 5, 6 - harus dianggap sebagai komedian (Dikutip secara independen oleh SM Stigler, R. Koenker, dan yang lainnya).
Nick Cox
3
Bukankah kedua algoritma tersebut kehilangan langkah penting dalam mengurutkan data?
Emil
3
Jika Anda perlu "median" untuk selalu menjadi elemen kumpulan data, Anda mungkin sebenarnya mencari medoid .
Ilmari Karonen

Jawaban:

23

TL; DR - Saya tidak mengetahui nama-nama tertentu yang diberikan kepada penaksir median sampel yang berbeda. Metode untuk memperkirakan statistik sampel dari beberapa data agak cerewet dan sumber daya yang berbeda memberikan definisi yang berbeda.

Dalam Pengantar Statistik Matematika Matematika Hogg, McKean dan Craig , penulis memberikan definisi median sampel acak , tetapi hanya dalam kasus bahwa ada jumlah sampel ganjil! Penulis menulis

nY(n+1)/2

Ysayasaya

n

Algoritma B memiliki properti yang setengah data jatuh di atas nilai, dan setengah data jatuh di bawah nilai. Mengingat definisi median dari variabel acak , ini tampak bagus.


Apakah penaksir tertentu memecahkan tes unit adalah properti tes unit - tes unit yang ditulis terhadap estimator tertentu tidak selalu berlaku ketika Anda mengganti estimator lain. Dalam kasus yang ideal, tes unit dipilih karena mencerminkan kebutuhan kritis organisasi Anda, bukan karena argumen doktriner atas definisi.

Sycorax berkata Reinstate Monica
sumber
2
(+1) Kita dapat menambahkan juga bahwa (1) Ketika nilai datang dengan bobot maka definisi median pada prinsipnya dan dalam praktiknya harus mencakup itu juga. (Secara implisit dalam jawaban sejauh ini, semua bobot sama, oleh karena itu tidak material.) Sementara interpolasi linier dalam jumlah kumulatif bobot adalah yang paling sederhana, ada situasi di mana jenis interpolasi lain mungkin masuk akal. (2) Definisi median yang lebih ketat biasanya dimaksudkan untuk mencakup distribusi diskrit dan kontinu dan hibrid, termasuk yang memiliki lonjakan probabilitas di suatu tempat.
Nick Cox
25

Apa yang dikatakan @ Scorax.

Sebagai soal fakta, secara mengejutkan ada banyak definisi tentang kuantil umum, jadi khususnya juga median. Hyndman & Fan (1996, The American Statistician ) memberikan gambaran yang, AFAIK, masih komprehensif. Jenis yang berbeda tidak memiliki nama resmi. Anda mungkin harus jelas tentang jenis yang Anda gunakan. (Seringkali tidak membuat perbedaan besar dengan set data ukuran realistis.)

Perhatikan bahwa umumnya diterima memiliki nilai yang tidak ada dalam data yang ditetapkan sebagai median, misalnya, 5,5 sebagai median untuk (4, 5, 6, 7). Ini adalah perilaku default untuk R:

> median(4:7)
[1] 5.5

R's median()secara default menggunakan tipe 7 dari klasifikasi Hyndman & Fan.

S. Kolassa - Reinstate Monica
sumber
6
+1 untuk "Seringkali tidak membuat perbedaan besar dengan set data ukuran realistis." Saya akan mencurinya, alih-alih seperti biasanya "jika itu membuat perbedaan materi, Anda mungkin perlu lebih banyak data." :)
Jason
1
Jika Anda memiliki variabel biner dengan nilai 0, 1 (katakanlah) dan dengan hampir sama banyak 0s dan 1s (rata-rata mendekati 0,5) maka ukuran sampel yang besar tidak perlu menghentikan median yang dilaporkan membalik ke depan dan ke belakang antara 0, 0,5 dan 1. Mosteller dan Tukey ( Analisis dan Regresi Data 1977) mengutip sangat distribusi bimodal dan hampir simetris sebagai kasus di mana median mungkin tidak berperilaku sangat baik.
Nick Cox
3

Dalam madfungsi R , ia menggunakan istilah "lo-median" untuk menggambarkan algoritme Anda A, "hi-median" untuk menggambarkan pembulatan sebagai gantinya, dan hanya "median" untuk menggambarkan algoritme B Anda (yang, seperti yang telah dicatat orang lain sejauh ini) definisi paling umum).

Anehnya, tidak ada opsi seperti itu pada median()fungsi R ! (Tapi R quantile()punya typeuntuk kontrol yang baik.)

Darren Cook
sumber