Interval kepercayaan untuk median

8

Saya memiliki satu set nilai di mana saya menghitung median M. Saya bertanya-tanya bagaimana saya bisa menghitung kesalahan pada estimasi ini.xi,i=1,,N

Di internet saya menemukan bahwa itu dapat dihitung sebagai mana adalah standar deviasi. Tetapi saya tidak menemukan referensi tentang itu. Jadi saya tidak mengerti kenapa .. Bisakah seseorang menjelaskannya kepada saya?1.2533σNσ

Saya berpikir bahwa saya dapat menggunakan bootstrap untuk memperkirakan kesalahan tetapi saya ingin menghindarinya karena akan memperlambat banyak analisis saya.

Saya juga sedang berpikir untuk menghitung kesalahan pada median dengan cara ini

δM=i(xiM)2N1

Apakah masuk akal?

shamalaia
sumber
1
Apakah Anda tahu dengan pasti bahwa data terdistribusi secara normal?
gung - Reinstate Monica
mereka lognormal
shamalaia
4
Bootstrap harus bekerja dan itu tidak bisa memakan waktu lama. Entah Anda memiliki set data yang cukup lengkap dan tidak perlu melakukan bootstrap, cukup gunakan median variabel Anda sebagai estimasi median sebenarnya. Atau Anda memiliki dataset yang agak kecil dan Anda dapat menggunakan bootstrap untuk memperkirakan median dengan kesalahan margin Anda dalam waktu yang tidak lama.
YCR
2
Informasi lengkap tentang distribusi median muncul di pos saya di stats.stackexchange.com/a/86804/919 . Ini mengembangkan teori yang dibutuhkan untuk interval kepercayaan nonparametrik dan normal-perkiraan.
Whuber

Jawaban:

12

Untuk secara langsung menangani kesalahan pada median, Anda dapat menggunakan interval kepercayaan nonparametrik yang tepat untuk median, yang menggunakan statistik pesanan. Jika Anda menginginkan sesuatu yang berbeda, yaitu ukuran dispersi, pertimbangkan perbedaan rata-rata Gini. Kode ada di sini untuk interval kepercayaan median.

Frank Harrell
sumber
Saya sebenarnya mempertimbangkan untuk menggunakan analog dari koefisien Gini: Sn=cmedj(medj|xsaya-xj|)sebagaimana didefinisikan oleh Rousseeuw dan Croux ( web.ipac.caltech.edu/staff/fmasci/home/astro_refs/… ).
shamalaia
1
Median harus memiliki kesalahan asimetris jika distribusi data asimetris.
Frank Harrell
11

Seperti yang ditunjukkan dalam jawaban lain, ada CI non-parametrik untuk median menggunakan statistik urutan. CI itu lebih baik dalam banyak aspek daripada apa yang Anda temukan di internet.

Sekarang, jika Anda harus tahu di mana 1.2533σNberasal dari faktor, jawabannya adalah dari distribusi median asimptotik. Jika kami menunjukkan median sampel olehθ~ dan median populasi oleh θ maka dapat ditunjukkan itu

n(θ~-θ)L.N(0,14[f(θ)]2)

dimana fadalah distribusi sampel Anda. Hasilnya tidak universal seperti CLT karena distribusi asimptik masih tergantung pada distribusi yang mendasari sampel Anda (melalui istilah[f(θ)]2). Anda dapat, bagaimanapun, membuat penyederhanaan drastis bahwa sampel Anda berasal dari distribusi normal dengan mean -dan median-θ dan varians σ2. Mengevaluasif pada titik simetri kemudian menghasilkan

[f(θ)]2=12πσ2

dan varians asimptotik menjadi

2π4σ2
.

Dibagi dengan N dan ambil akar kuadrat itu untuk sampai pada kesalahan standar Anda 1.2533σN.

JohnK
sumber
sekarang di Wikipedia: en.wikipedia.org/wiki/Median#Sampling_distribution
Felipe G. Nievinski