Bagian 1.7.2 dari Menemukan Statistik Menggunakan R oleh Andy Fields, dkk, sambil mendaftar nilai rata-rata vs median, menyatakan:
... rerata cenderung stabil pada sampel yang berbeda.
Ini setelah menjelaskan banyak kebajikan median, misalnya
... Median relatif tidak terpengaruh oleh skor ekstrem di kedua ujung distribusi ...
Mengingat bahwa median relatif tidak terpengaruh oleh skor ekstrim, saya akan berpikir itu lebih stabil di seluruh sampel. Jadi saya bingung dengan pernyataan penulis. Untuk mengkonfirmasi saya menjalankan simulasi - saya menghasilkan angka acak 1M dan mengambil sampel 100 angka 1000 kali dan menghitung rata-rata dan median dari setiap sampel dan kemudian menghitung sd dari rata-rata dan median sampel tersebut.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Seperti yang Anda lihat, alat-alatnya lebih rapat daripada median.
Pada gambar terlampir histogram merah untuk median - seperti yang Anda lihat itu kurang tinggi dan memiliki ekor lebih gemuk yang juga menegaskan pernyataan penulis.
Saya terperangah dengan ini, meskipun! Bagaimana median yang lebih stabil cenderung pada akhirnya bervariasi lebih banyak di seluruh sampel? Tampaknya paradoks! Wawasan apa pun akan dihargai.
rnorm
denganrcauchy
.Jawaban:
Median secara maksimal kuat untuk outlier, tetapi sangat rentan terhadap kebisingan. Jika Anda memasukkan sedikit noise ke setiap titik, itu akan memasuki median yang tidak terekam selama noise cukup kecil untuk tidak mengubah urutan relatif dari titik-titik tersebut. Untuk maksudnya adalah sebaliknya. Kebisingan rata-rata keluar, tetapi pencilan tunggal dapat mengubah rata-rata.
Tes Anda sebagian besar mengukur ketahanan terhadap kebisingan, tetapi Anda dapat dengan mudah membuatnya di mana median berkinerja lebih baik. Jika Anda menginginkan estimator yang kuat untuk outlier dan noise, buang saja ketiga atas dan bawah dan rata-rata sisanya.
sumber
Seperti @whuber dan yang lainnya katakan, pernyataan itu tidak benar secara umum. Dan jika Anda ingin menjadi lebih intuitif - saya tidak bisa mengikuti geeks matematika yang mendalam di sekitar sini - Anda mungkin melihat cara-cara lain dan median stabil atau tidak. Untuk contoh-contoh ini, asumsikan jumlah poin ganjil sehingga saya dapat menjaga uraian saya konsisten dan sederhana.
Bayangkan Anda memiliki penyebaran poin pada garis angka. Sekarang bayangkan Anda mengambil semua poin di atas tengah dan memindahkannya hingga 10x nilainya. Median tidak berubah, rata-rata bergerak secara signifikan. Jadi median tampaknya lebih stabil.
Sekarang bayangkan poin-poin ini tersebar cukup luas. Pindahkan titik tengah ke atas dan ke bawah. Satu unit gerakan mengubah median per satu, tetapi nyaris tidak memindahkan rata-rata. Median sekarang tampaknya kurang stabil dan lebih sensitif terhadap gerakan kecil dari satu titik.
Sekarang bayangkan mengambil titik tertinggi dan memindahkannya dengan lancar dari titik tertinggi ke titik terendah. Berarti juga akan lancar bergerak. Tetapi median tidak akan bergerak terus-menerus: ia tidak akan bergerak sama sekali sampai titik tinggi Anda menjadi lebih rendah dari median sebelumnya, kemudian mulai mengikuti titik sampai berjalan di bawah titik berikutnya, kemudian median menempel pada titik itu dan lagi tidak bergerak ketika Anda terus memindahkan poin Anda ke bawah. [Diedit per komentar]
Jadi transformasi yang berbeda dari poin Anda menyebabkan rata-rata atau median terlihat kurang mulus atau stabil. Para pemukul berat matematika di sini telah menunjukkan kepada Anda distribusi yang dapat Anda sampel, yang lebih cocok dengan eksperimen Anda, tetapi mudah-mudahan intuisi ini juga membantu.
sumber
[1, 3, 5, 7, 9]
. Awalnya mediannya adalah5
. Itu akan tetap menjadi median hingga poin kelima (awalnya9
) turun di bawah ini5
, di mana titik median akan dengan lancar mengikuti titik kelima saat menurun, sampai mencapai3
, di titik mana median akan tinggal3
. Jadi meskipun titik yang mendefinisikan median adalah "melompat" (dari sudut ketiga, ke titik kelima, ke titik kedua), sebenarnya nilai dari median tidak memiliki melompat / diskontinuitas.Karena itu kami memiliki:
sumber
Komentar: Hanya untuk mengulang kembali simulasi Anda, menggunakan distribusi yang sarana dan medianya SD memiliki hasil yang berlawanan:
Secara khusus,
nums
sekarang dari distribusi Laplace (juga disebut 'eksponensial ganda'), yang dapat disimulasikan sebagai perbedaan dari dua distribusi eksponensial dengan laju yang sama (di sini kurs default 1). [Mungkin melihat Wikipedia di distribusi Laplace.]Catatan: Kemungkinan mudah lainnya, yang secara eksplisit disebutkan dalam tautan @ whuber, adalah Cauchy, yang dapat disimulasikan sebagai distribusi t Student dengan satu derajat kebebasan
rt(10^6, 1)
,. Namun, ekornya sangat berat sehingga membuat histogram yang bagus itu bermasalah.sumber