Perkiraan median yang tidak bias

Misalkan kita memiliki variabel acak didukung pada dari mana kita dapat mengambil sampel. Bagaimana kita bisa menghasilkan estimasi median ? $X$ $[0,1]$ $X$

Kita tentu saja dapat menghasilkan beberapa sampel dan mengambil median sampel, tetapi saya mengerti ini secara umum tidak akan memihak.

Catatan: pertanyaan ini terkait, tetapi tidak identik, dengan pertanyaan terakhir saya , di mana kasus hanya bisa dijadikan sampel. $X$

sampling Robinson
sumber

Jawaban:

Penaksir seperti itu tidak ada.

Intuisi adalah bahwa median dapat tetap tetap sementara kita dengan bebas menggeser kepadatan probabilitas di kedua sisi itu, sehingga setiap penaksir yang nilai rata-rata adalah median untuk satu distribusi akan memiliki rata-rata yang berbeda untuk distribusi yang diubah, membuatnya bias. Eksposisi berikut memberikan sedikit ketegaran untuk intuisi ini.

Kami fokus pada distribusi memiliki median unik , sehingga menurut definisi dan untuk semua . Perbaiki ukuran sampel dan anggap bahwa perkiraan . (Ini akan cukup bahwa hanya dibatasi, tetapi biasanya seseorang tidak secara serius mempertimbangkan penduga yang menghasilkan nilai yang jelas tidak mungkin.) Kami tidak membuat asumsi tentang ; bahkan tidak harus berkelanjutan di mana pun. $F$ $m$ $F(m) \ge 1/2$ $F(x) \lt 1/2$ $x \lt m$ $n \ge 1$ $t: [0,1]^n \to [0,1]$ $m$ $t$ $t$

Arti dari tidak bias (untuk ukuran sampel tetap ini) adalah itu $t$

E_{F} [t (X_{1}, \dots, X_{n})] = m

$E_F[t(X_1, \ldots, X_n)] = m$

untuk setiap sampel iid dengan . "Estimator yang tidak memihak" adalah satu dengan properti ini untuk semua seperti itu . $X_i \sim F$ $t$ $F$

Misalkan ada penduga yang tidak bias. Kami akan mendapatkan kontradiksi dengan menerapkannya pada rangkaian distribusi yang sangat sederhana. Pertimbangkan distribusi memiliki properti ini: $F = F_{x,y,m, \varepsilon}$

$0 \le x \lt y \le 1$ ;
$0 \lt \varepsilon \lt (y-x)/4$ ;
$x + \varepsilon \lt m \lt y - \varepsilon$ ;
$\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$ ;
$\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$ ; dan
$F$ seragam pada . $[m-\varepsilon, m+\varepsilon]$

Distribusi ini menempatkan probabilitas pada masing-masing dan dan sejumlah kecil probabilitas secara simetris ditempatkan di sekitar antara dan . Merek ini median yang unik dari . (Jika Anda khawatir ini bukan distribusi berkelanjutan, gabungkan dengan Gaussian yang sangat sempit dan kurangi hasilnya menjadi : argumennya tidak akan berubah.) $(1-\varepsilon)/2$ $x$ $y$ $m$ $x$ $y$ $m$ $F$ $[0,1]$

Sekarang, untuk setiap diduga median estimator , perkiraan menunjukkan mudah yang secara ketat dalam dari rata-rata dari nilai mana bervariasi pada semua kombinasi yang mungkin dari dan . Namun, kita dapat memvariasikan antara dan , perubahan setidaknya (berdasarkan kondisi 2 dan 3). Jadi ada , dan dari mana distribusi yang sesuai $t$ $E[t(X_1, X_2, \ldots, X_n)]$ $\varepsilon$ $2^n$ $t(x_1, x_2, \ldots, x_n)$ $x_i$ $x$ $y$ $m$ $x + \varepsilon$ $y - \varepsilon$ $\varepsilon$ $m$ $F_{x,y,m,\varepsilon}$ , untuk yang harapan ini tidak sama dengan median, QED.

whuber
sumber

(+1) Bukti bagus. Apakah Anda datang dengan itu, atau itu sesuatu yang Anda ingat dari sekolah pascasarjana?

Tugas

Ini bukti lain: Kebanyakan variabel acak Bernoulli memiliki median atau . Estimasi dari percobaan hanya bergantung pada nilai rata-rata estimator pada simpul dengan , dan bobot nilai rata-rata ini adalah polinomial dalam derajat . Jika ini adalah penaksir yang tidak bias, ia harus memiliki nilai rata-rata untuk , dan ada lebih dari nilai-nilai , sehingga polinomial ini harus konstan ... tetapi harus pada nilai lebih rendah , jadi tidak bisa tidak bias di sana juga.

0

$0$

1

$1$

n

$n$

[0, 1]^{n}

$[0,1]^n$

k

$k$

p

$p$

n

$n$

1

$1$

p > 1 / 2

$p \gt 1/2$

n + 1

$n+1$

p

$p$

0

$0$

p

$p$

Douglas Zare

@ Douglas Itu bukti bagus. Saya menduga beberapa orang mungkin merasa sedikit tidak nyaman tentang ruang lingkup penerapannya, karena median untuk variabel Bernoulli agak istimewa, karena bertepatan dengan salah satu dari dua titik dukungannya (kecuali ketika ). Pembaca mungkin tergoda untuk menyatakan ini sebagai "patologis" dan mencoba untuk melarang monster seperti itu dengan hanya melihat distribusi terus menerus dengan kepadatan positif di mana-mana di domain mereka. Itu sebabnya saya berhati-hati untuk menunjukkan bahwa upaya seperti itu akan gagal.

p = 1 / 2

$p=1/2$

whuber

Menemukan estimator yang tidak bias tanpa memiliki model parametrik akan sulit! Tapi Anda bisa menggunakan bootstrap, dan menggunakannya untuk memperbaiki median empiris untuk mendapatkan penaksir yang tidak bias.

kjetil b halvorsen
sumber

Jika ini tidak mungkin, apakah mungkin untuk membuktikannya? Misalnya, jika adalah sampel independen dari maka dapatkah seseorang membuktikan bahwa tidak dapat objektif untuk setiap pilihan ?

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \ldots, X_n$

X

$X$

f (X_{1}, \dots, X_{n})

$f(X_1, \ldots, X_n)$

f

$f$

robinson

Saya pikir kjetil mengatakan bahwa dalam kerangka nonparametrik tidak ada metode yang akan memberikan perkiraan yang tidak bias untuk setiap distribusi yang mungkin. Tetapi dalam kerangka parametrik Anda mungkin bisa. Bootstrap estimasi sampel yang bias dapat memungkinkan Anda untuk memperkirakan bias dan menyesuaikannya untuk mendapatkan estimasi bootstrap yang hampir tidak bias. Itulah sarannya untuk menangani masalah dalam kerangka nonparametrik. Membuktikan bahwa estimasi yang tidak bias tidak mungkin juga akan sulit.

Michael R. Chernick

Jika Anda benar-benar ingin mencoba membuktikan bahwa tidak ada penaksir yang tidak bias, ada sebuah buku, Ferguson: "Statistik Matematika - Suatu Pendekatan Teori Keputusan" yang memiliki beberapa contoh hal semacam itu!

kjetil b halvorsen

Saya membayangkan bahwa kondisi keteraturan untuk bootstrap akan dilanggar dengan fungsi distribusi yang dipertimbangkan Whuber dalam jawabannya. Michael, bisakah Anda berkomentar?

Tugas

@Stas Seperti yang saya tunjukkan, fungsi saya dapat dibuat terlihat sangat "bagus" dengan meredakannya. Mereka juga dapat digeneralisasi untuk meredakan campuran-campuran atom berhingga yang besar. Kelas distribusi seperti itu padat di semua distribusi pada interval unit, jadi saya tidak berpikir keteraturan bootstrap akan terlibat di sini.

Whuber

Saya percaya regresi kuantil akan memberi Anda penaksir median yang konsisten. Diberikan model . Dan Anda ingin memperkirakan karena adalah konstanta. Yang Anda butuhkan adalah yang seharusnya benar selama Anda memiliki undian independen. Namun, sejauh tidak memihak, saya tidak tahu. Median itu sulit. $Y = \alpha + u$ $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ $\alpha$ $\text{med}(u) = 0$

Francis
sumber

Lihat jawaban @whuber

Peter Flom - Reinstate Monica