Mengapa mean cenderung lebih stabil dalam sampel yang berbeda dari median?

22

Bagian 1.7.2 dari Menemukan Statistik Menggunakan R oleh Andy Fields, dkk, sambil mendaftar nilai rata-rata vs median, menyatakan:

... rerata cenderung stabil pada sampel yang berbeda.

Ini setelah menjelaskan banyak kebajikan median, misalnya

... Median relatif tidak terpengaruh oleh skor ekstrem di kedua ujung distribusi ...

Mengingat bahwa median relatif tidak terpengaruh oleh skor ekstrim, saya akan berpikir itu lebih stabil di seluruh sampel. Jadi saya bingung dengan pernyataan penulis. Untuk mengkonfirmasi saya menjalankan simulasi - saya menghasilkan angka acak 1M dan mengambil sampel 100 angka 1000 kali dan menghitung rata-rata dan median dari setiap sampel dan kemudian menghitung sd dari rata-rata dan median sampel tersebut.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Seperti yang Anda lihat, alat-alatnya lebih rapat daripada median.

Pada gambar terlampir histogram merah untuk median - seperti yang Anda lihat itu kurang tinggi dan memiliki ekor lebih gemuk yang juga menegaskan pernyataan penulis.

Saya terperangah dengan ini, meskipun! Bagaimana median yang lebih stabil cenderung pada akhirnya bervariasi lebih banyak di seluruh sampel? Tampaknya paradoks! Wawasan apa pun akan dihargai.

mean median Alok Lal
sumber

1

Ya, tetapi cobalah dengan mengambil sampel dari nums <- rt (n = 10 ** 6, 1.1). Distribusi t1.1 akan memberikan banyak nilai ekstrem, tidak harus seimbang antara positif dan negatif (sama baiknya peluang mendapatkan nilai ekstrem positif lain sebagai nilai ekstrem negatif untuk diseimbangkan), yang akan menyebabkan varians raksasa dalam

. Inilah yang menjadi perisai median. Distribusi normal tidak mungkin memberikan nilai ekstrim tertentu untuk merentangkan distribusi

lebih luas dari median.

\bar{x}

$\bar{x}$

\bar{x}

$\bar{x}$

Dave

10

Pernyataan penulis umumnya tidak benar. (Kami telah menerima banyak pertanyaan di sini terkait dengan kesalahan dalam buku-buku penulis ini, jadi ini bukan kejutan.) Contoh tandingan standar ditemukan di antara "distribusi stabil" , di mana mean sama sekali tidak "stabil" (dalam arti wajar dari istilah) dan median jauh lebih stabil.

whuber

1

"... rerata cenderung stabil dalam sampel yang berbeda." adalah pernyataan yang tidak masuk akal. "stabilitas" tidak didefinisikan dengan baik. Rata-rata (sampel) memang cukup stabil dalam sampel tunggal karena merupakan kuantitas nonrandom. Jika data "tidak stabil" (sangat bervariasi?) Rerata juga "tidak stabil".

AdamO

1

Pertanyaan ini kemungkinan dijawab oleh analisis terperinci yang ditawarkan di stats.stackexchange.com/questions/7307 , di mana pertanyaan yang sama ditanyakan dengan cara tertentu (di mana pengertian "stabil" didefinisikan dengan baik).

whuber

2

Coba ganti rnormdengan rcauchy.

Eric Towers

3

Median secara maksimal kuat untuk outlier, tetapi sangat rentan terhadap kebisingan. Jika Anda memasukkan sedikit noise ke setiap titik, itu akan memasuki median yang tidak terekam selama noise cukup kecil untuk tidak mengubah urutan relatif dari titik-titik tersebut. Untuk maksudnya adalah sebaliknya. Kebisingan rata-rata keluar, tetapi pencilan tunggal dapat mengubah rata-rata.

Tes Anda sebagian besar mengukur ketahanan terhadap kebisingan, tetapi Anda dapat dengan mudah membuatnya di mana median berkinerja lebih baik. Jika Anda menginginkan estimator yang kuat untuk outlier dan noise, buang saja ketiga atas dan bawah dan rata-rata sisanya.

Rainer P.
sumber

Apakah ada nama yang lebih spesifik untuk algoritme ini daripada " mean 33% yang dipotong "?

David Cary

25

Seperti @whuber dan yang lainnya katakan, pernyataan itu tidak benar secara umum. Dan jika Anda ingin menjadi lebih intuitif - saya tidak bisa mengikuti geeks matematika yang mendalam di sekitar sini - Anda mungkin melihat cara-cara lain dan median stabil atau tidak. Untuk contoh-contoh ini, asumsikan jumlah poin ganjil sehingga saya dapat menjaga uraian saya konsisten dan sederhana.

Bayangkan Anda memiliki penyebaran poin pada garis angka. Sekarang bayangkan Anda mengambil semua poin di atas tengah dan memindahkannya hingga 10x nilainya. Median tidak berubah, rata-rata bergerak secara signifikan. Jadi median tampaknya lebih stabil.
Sekarang bayangkan poin-poin ini tersebar cukup luas. Pindahkan titik tengah ke atas dan ke bawah. Satu unit gerakan mengubah median per satu, tetapi nyaris tidak memindahkan rata-rata. Median sekarang tampaknya kurang stabil dan lebih sensitif terhadap gerakan kecil dari satu titik.
Sekarang bayangkan mengambil titik tertinggi dan memindahkannya dengan lancar dari titik tertinggi ke titik terendah. Berarti juga akan lancar bergerak. Tetapi median tidak akan bergerak terus-menerus: ia tidak akan bergerak sama sekali sampai titik tinggi Anda menjadi lebih rendah dari median sebelumnya, kemudian mulai mengikuti titik sampai berjalan di bawah titik berikutnya, kemudian median menempel pada titik itu dan lagi tidak bergerak ketika Anda terus memindahkan poin Anda ke bawah. [Diedit per komentar]

Jadi transformasi yang berbeda dari poin Anda menyebabkan rata-rata atau median terlihat kurang mulus atau stabil. Para pemukul berat matematika di sini telah menunjukkan kepada Anda distribusi yang dapat Anda sampel, yang lebih cocok dengan eksperimen Anda, tetapi mudah-mudahan intuisi ini juga membantu.

Wayne
sumber

1

Mengenai item 3: Bukankah median juga bergerak dengan lancar? Katakan set poin awal adalah [1, 3, 5, 7, 9]. Awalnya mediannya adalah 5. Itu akan tetap menjadi median hingga poin kelima (awalnya9 ) turun di bawah ini 5, di mana titik median akan dengan lancar mengikuti titik kelima saat menurun, sampai mencapai 3, di titik mana median akan tinggal 3. Jadi meskipun titik yang mendefinisikan median adalah "melompat" (dari sudut ketiga, ke titik kelima, ke titik kedua), sebenarnya nilai dari median tidak memiliki melompat / diskontinuitas.

Scott M

@ScottM Anda sepertinya benar. Tidak yakin mengapa saya pikir itu akan melompat. Saya akan menulis ulang ketika saya mendapat kesempatan.

Wayne

18

$n$ $\mu$ $\sigma^2 < \infty$ $f$ $m$ $\tilde{f}$ $\tilde{f}(z) = \sigma \cdot f(\mu+\sigma z)$ $z \in \mathbb{R}$ . Varians asimptotik dari rata-rata sampel dan median sampel diberikan masing-masing oleh:

V ({\bar{X}}_{n}) = \frac{σ^{2}}{n} V ({\tilde{X}}_{n}) \to \frac{σ^{2}}{n} \cdot \frac{1}{4} \cdot \tilde{f} (\frac{m - μ}{σ})^{- 2} .

$\mathbb{V}(\bar{X}_n) = \frac{\sigma^2}{n} \quad \quad \quad \quad \quad \mathbb{V}(\tilde{X}_n) \rightarrow \frac{\sigma^2}{n} \cdot \frac{1}{4} \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^{-2}.$

Karena itu kami memiliki:

\frac{V ({\bar{X}}_{n})}{V ({\tilde{X}}_{n})} \to 4 \cdot \tilde{f} (\frac{m - μ}{σ})^{2} .

$\frac{\mathbb{V}(\bar{X}_n)}{\mathbb{V}(\tilde{X}_n)} \rightarrow 4 \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^2.$

$n$

V ({\bar{X}}_{n}) < V ({\tilde{X}}_{n}) ⟺ f_{*} \equiv \tilde{f} (\frac{m - μ}{σ}) < \frac{1}{2} .

$\mathbb{V}(\bar{X}_n) < \mathbb{V}(\tilde{X}_n) \quad \quad \iff \quad \quad f_* \equiv \tilde{f} \Big( \frac{m-\mu}{\sigma} \Big) < \frac{1}{2}.$

$n$ $f_* = 1 / \sqrt{2 \pi} = 0.3989423 < 1/2$

Pasang kembali Monica
sumber

Luar biasa! Terima kasih.

Alok Lal

4

Komentar: Hanya untuk mengulang kembali simulasi Anda, menggunakan distribusi yang sarana dan medianya SD memiliki hasil yang berlawanan:

Secara khusus, numssekarang dari distribusi Laplace (juga disebut 'eksponensial ganda'), yang dapat disimulasikan sebagai perbedaan dari dua distribusi eksponensial dengan laju yang sama (di sini kurs default 1). [Mungkin melihat Wikipedia di distribusi Laplace.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

Catatan: Kemungkinan mudah lainnya, yang secara eksplisit disebutkan dalam tautan @ whuber, adalah Cauchy, yang dapat disimulasikan sebagai distribusi t Student dengan satu derajat kebebasan rt(10^6, 1),. Namun, ekornya sangat berat sehingga membuat histogram yang bagus itu bermasalah.

BruceET
sumber

Mengapa mean cenderung lebih stabil dalam sampel yang berbeda dari median?

Jawaban: