Menghitung kesalahan standar dalam estimasi rata-rata tertimbang

16

Misalkan dan masing-masing diambil iid dari beberapa distribusi, dengan independen dari . The secara ketat positif. Anda mengamati semua , tetapi bukan ; Anda lebih mengamati . Saya tertarik memperkirakan dari informasi ini. Jelas penaksir tidak bias, dan dapat dihitung dengan memberikan informasi yang ada.w1,w2,,wnw i x i w i w i x i i x i w i E [ x ] ˉ x = i w i x ix1,x2,...,xnwixiwiwixiixiwiE[x]

x¯=iwixiiwi

Bagaimana saya bisa menghitung kesalahan standar estimator ini? Untuk sub-kasus di mana hanya mengambil nilai 0 dan 1, saya secara naif mencoba pada dasarnya mengabaikan variabilitas dalam , tetapi menemukan bahwa ini berkinerja buruk untuk ukuran sampel lebih kecil dari sekitar 250. (Dan ini mungkin tergantung pada varians dari .) Tampaknya saya mungkin tidak memiliki cukup informasi untuk hitung kesalahan standar 'lebih baik'.xiwiwi

sex¯(1x¯)iwi2iwi,
wiwi
shabbychef
sumber

Jawaban:

17

Saya mengalami masalah yang sama baru-baru ini. Berikut ini adalah apa yang saya temukan:

Tidak seperti sampel acak sederhana dengan bobot yang sama, tidak ada definisi kesalahan standar rata-rata tertimbang yang diterima secara luas . Hari-hari ini, akan sangat mudah untuk melakukan bootstrap dan mendapatkan distribusi rata-rata dari rata-rata, dan berdasarkan pada perkiraan kesalahan standar.

Bagaimana jika seseorang ingin menggunakan rumus untuk melakukan estimasi ini?

Referensi utama adalah makalah ini , oleh Donald F. Gatz dan Luther Smith, di mana 3 penduga berbasis rumus dibandingkan dengan hasil bootstrap. Perkiraan terbaik untuk hasil bootstrap berasal dari Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Berikut ini adalah kode R yang sesuai yang berasal dari utas listlist R ini .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Semoga ini membantu!

Ming K
sumber
Ini cukup keren, tetapi untuk masalah saya, saya bahkan tidak mengamati , saya mengamati jumlah . Pertanyaan saya sangat aneh karena melibatkan beberapa asimetri informasi (pihak ketiga melaporkan jumlahnya, dan mencoba menyembunyikan beberapa informasi). PiXiiPiXi
shabbychef
Astaga, Anda benar, maaf saya tidak sepenuhnya memahami pertanyaan yang Anda ajukan. Misalkan kita merebus masalah Anda ke kasus paling sederhana di mana semua adalah Bernoulli RV. Maka Anda pada dasarnya mengamati jumlah subset acak dari RVs. Dugaan saya adalah tidak ada banyak informasi di sini untuk diestimasi. Jadi apa yang akhirnya Anda lakukan untuk masalah awal Anda? win
Ming K
@ Ming-ChihKao formula cochran ini menarik tetapi jika Anda membangun interval kepercayaan dari ini ketika data tidak normal tidak ada interpretasi yang konsisten benar? Bagaimana Anda menangani interval kepercayaan rata-rata tertimbang yang tidak normal? Kuantil tertimbang?
user3022875
Saya pikir ada kesalahan dengan fungsinya. Jika Anda mengganti w=rep(1, length(x)), maka weighted.var.se(rnorm(50), rep(1, 50))sekitar 0.014. Saya pikir rumus tidak ada sum(w^2)dalam pembilang, sejak kapan P=1, variansnya 1/(n*(n-1)) * sum((x-xbar)^2). Saya tidak dapat memeriksa artikel yang dikutip karena berada di belakang paywall, tapi saya pikir koreksi itu. Anehnya, solusi Wikipedia (berbeda) menjadi merosot ketika semua bobotnya sama: en.wikipedia.org/wiki/… .
Max Candocia
Ini mungkin bekerja lebih baik secara umum: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia
5

Varians dari perkiraan Anda mengingat adalah Σ w 2 i V sebuah r ( X )wi Karena estimasi Anda tidak bias untuk setiapwi, varians dari mean bersyaratnya adalah nol. Karenanya, varian estimasi Anda adalah Var(X)E(β w 2 i

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi Dengan semua data yang diamati, ini akan mudah untuk diperkirakan secara empiris. Tetapi dengan hanya ukuran lokasiXidiamati, dan tidak menyebar mereka, saya tidak melihat bagaimana hal itu akan mungkin untuk mendapatkan perkiraanVsebuahr(X), tanpa membuat asumsi yang agak parah.
Var(X)E(wi2(wi)2)
XiVar(X)
tamu
sumber
xixx¯(1x¯)