Saya memiliki variabel acak 1-D yang sangat miring. Untuk menormalkan distribusi ini, saya ingin menggunakan median daripada mean. pertanyaan saya adalah ini: dapatkah saya menghitung varian distribusi menggunakan median dalam rumus, bukan rata-rata?
yaitu saya bisa mengganti
dengan
Alasan saya di balik ini adalah karena varians adalah ukuran penyebaran dan kecenderungan utama distribusi, seharusnya tidak menjadi masalah tetapi saya ingin memvalidasi logika ini.
Jawaban:
Berarti meminimalkan kesalahan kuadrat (atau norma L2, lihat di sini atau di sini ), jadi pilihan alami untuk varian untuk mengukur jarak dari rata-rata adalah dengan menggunakan kuadrat kesalahan (lihat di sini tentang mengapa kita kuadratkan). Di sisi lain, median meminimalkan kesalahan absolut (norma L1), yaitu nilai yang ada di "tengah" data Anda, sehingga jarak absolut dari median (yang disebut Median Absolute Deviation atau MAD) tampaknya menjadi ukuran tingkat variabilitas yang lebih baik di sekitar median. Anda dapat membaca lebih lanjut tentang hubungan ini di utas ini .
Singkatnya, varians berbeda dari MAD tentang bagaimana mereka menentukan titik pusat data Anda dan ini memengaruhi cara kami mengukur variasi titik data di sekitarnya. Mengkuadratkan nilai membuat outlier memiliki pengaruh yang lebih besar pada titik pusat (rata-rata), sedangkan dalam kasus median, semua titik memiliki dampak yang sama padanya, sehingga jarak absolut tampaknya lebih tepat.
Ini dapat ditunjukkan juga dengan simulasi sederhana. Jika Anda membandingkan nilai kuadrat jarak dari rata-rata dan median, maka total jarak kuadrat hampir selalu lebih kecil dari rata-rata daripada dari median. Di sisi lain, total jarak absolut lebih kecil dari median, kemudian dari rata-rata. Kode R untuk melakukan simulasi diposting di bawah ini.
Dalam hal menggunakan median alih-alih rata-rata dalam memperkirakan "varians" seperti ini, ini akan mengarah pada perkiraan yang lebih tinggi, dibandingkan dengan menggunakan mean seperti yang dilakukan secara tradisional.
By the way, hubungan norma L1 dan L2 dapat dianggap juga dalam konteks Bayesian, seperti di utas ini .
sumber