Menggunakan median untuk menghitung Varians

10

Saya memiliki variabel acak 1-D yang sangat miring. Untuk menormalkan distribusi ini, saya ingin menggunakan median daripada mean. pertanyaan saya adalah ini: dapatkah saya menghitung varian distribusi menggunakan median dalam rumus, bukan rata-rata?

yaitu saya bisa mengganti

Var(X)=[(Ximean(X))2]/n

dengan

Var(X)=[(Ximedian(X))2]/n

Alasan saya di balik ini adalah karena varians adalah ukuran penyebaran dan kecenderungan utama distribusi, seharusnya tidak menjadi masalah tetapi saya ingin memvalidasi logika ini.

Rahul Singh
sumber
1
Dengan median memusatkan variabel Anda dan kemudian membaginya dengan MAD (median deviasi absolut), Anda dapat membuat median distribusi standar.
Mike Hunter
4
Kamu bisa melakukan ini! Tetapi saya pikir itu adil untuk menyebutnya sangat tidak standar dan untuk menyarankan bahwa Anda memerlukan teori dan / atau simulasi untuk mendukungnya dan bukan hanya intuisi Anda. Saya menduga bahwa itu akan kurang tahan daripada penaksir standar. Misalnya, dalam kasus miring kanan umum, median akan kurang dari rata-rata, sehingga deviasi kuadrat terbesar (dari median) akan lebih besar lagi! Poin utama adalah bahwa jika varians sangat tidak dapat dipercaya, Anda mungkin perlu berpikir tentang mengukur penyebaran yang sangat berbeda, daripada versi varians yang berbeda.
Nick Cox
1
Poin Orthogonal: Apakah "menormalkan" berarti skala dalam beberapa cara, misalnya (nilai lokasi) / skala, atau apakah itu berarti semakin mendekati normal (Gaussian)?
Nick Cox
1
Pendekatan ini secara inheren tidak konsisten, karena masalah yang ditangani dengan mengganti rata-rata dengan median diperbesar dengan menggunakan varians alih-alih penduga yang kuat dari penyebaran.
whuber

Jawaban:

8

Berarti meminimalkan kesalahan kuadrat (atau norma L2, lihat di sini atau di sini ), jadi pilihan alami untuk varian untuk mengukur jarak dari rata-rata adalah dengan menggunakan kuadrat kesalahan (lihat di sini tentang mengapa kita kuadratkan). Di sisi lain, median meminimalkan kesalahan absolut (norma L1), yaitu nilai yang ada di "tengah" data Anda, sehingga jarak absolut dari median (yang disebut Median Absolute Deviation atau MAD) tampaknya menjadi ukuran tingkat variabilitas yang lebih baik di sekitar median. Anda dapat membaca lebih lanjut tentang hubungan ini di utas ini .

Singkatnya, varians berbeda dari MAD tentang bagaimana mereka menentukan titik pusat data Anda dan ini memengaruhi cara kami mengukur variasi titik data di sekitarnya. Mengkuadratkan nilai membuat outlier memiliki pengaruh yang lebih besar pada titik pusat (rata-rata), sedangkan dalam kasus median, semua titik memiliki dampak yang sama padanya, sehingga jarak absolut tampaknya lebih tepat.

Ini dapat ditunjukkan juga dengan simulasi sederhana. Jika Anda membandingkan nilai kuadrat jarak dari rata-rata dan median, maka total jarak kuadrat hampir selalu lebih kecil dari rata-rata daripada dari median. Di sisi lain, total jarak absolut lebih kecil dari median, kemudian dari rata-rata. Kode R untuk melakukan simulasi diposting di bawah ini.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Dalam hal menggunakan median alih-alih rata-rata dalam memperkirakan "varians" seperti ini, ini akan mengarah pada perkiraan yang lebih tinggi, dibandingkan dengan menggunakan mean seperti yang dilakukan secara tradisional.

By the way, hubungan norma L1 dan L2 dapat dianggap juga dalam konteks Bayesian, seperti di utas ini .

Tim
sumber