Pengukur tidak bias lainnya selain BLUE (solusi OLS) untuk model linier

15

Untuk model linier, solusi OLS memberikan penaksir tidak bias linier terbaik untuk parameter.

Tentu saja kita dapat memperdagangkan bias untuk varian yang lebih rendah, misalnya regresi ridge. Tetapi pertanyaan saya adalah tentang tidak memiliki bias. Apakah ada estimator lain yang agak umum digunakan, yang tidak bias tetapi dengan varians yang lebih tinggi daripada parameter perkiraan OLS?

Jika saya akan memiliki kumpulan data yang sangat besar tentu saja saya dapat mengambil sampel dan memperkirakan parameter dengan data yang lebih sedikit, dan meningkatkan varians. Saya menganggap ini bisa berguna secara hipotesis.

Ini lebih merupakan pertanyaan retoris, karena ketika saya telah membaca tentang estimator BLUE, alternatif yang lebih buruk tidak disediakan. Saya kira memberikan alternatif yang lebih buruk juga dapat membantu orang memahami kekuatan estimator BLUE dengan lebih baik.

Gumeo
sumber
Bagaimana dengan estimator kemungkinan maksimum? Misalnya jika Anda berpikir data Anda diambil dari distribusi dengan parameter kebebasan derajat yang relatif rendah ( t ( 3 ) atau t ( 4 ) mungkin merupakan karakteristik pengembalian keuangan), penaksir kemungkinan maksimum tidak akan bertepatan dengan OLS tapi kurasa itu akan tetap tidak bias. tt(3)t(4)
Richard Hardy
2
Relevan: andrewgelman.com/2015/05/05/...
b halvorsen
1
@ RichardHardy, saya juga mencoba MLE, dengan hasil yang Anda perkirakan.
Christoph Hanck

Jawaban:

19

Salah satu contoh yang terlintas dalam pikiran adalah beberapa penduga GLS yang menimbang pengamatan secara berbeda walaupun itu tidak diperlukan ketika asumsi Gauss-Markov terpenuhi (yang ahli statistik mungkin tidak tahu kasusnya dan karenanya berlaku masih menerapkan GLS).

Pertimbangkan kasus regresi yi , i=1,,n pada konstanta untuk ilustrasi (siap digeneralisasikan ke penduga GLS umum). Di sini, {yi} diasumsikan sampel acak dari populasi dengan mean μ dan variansi σ2 .

Kemudian, kita tahu bahwa OLS hanya β = ˉ y , sampel berarti. Untuk menekankan titik bahwa setiap pengamatan tertimbang dengan berat 1 / n , menulis ini sebagai β = n Σ i = 1 1β^=y¯1/n

β^=i=1n1nyi.
Hal ini juga diketahui bahwaVar(β^)=σ2/n.

Sekarang, pertimbangkan estimator lain yang dapat ditulis sebagai

β~=i=1nwiyi,
di mana bobot yang sedemikian rupa sehingga iwi=1 . Hal ini memastikan bahwa estimator yang berisi, seperti
E(i=1nwiyi)=i=1nwiE(yi)=i=1nwiμ=μ.
wi=1/ni

L=V(β~)λ(iwi1)=iwi2σ2λ(iwi1),
wi2σ2wiλ=0iL/λ=0iwi1=0λwi=wj, which implies wi=1/n minimizes the variance, by the requirement that the weights sum to one.

Berikut ini adalah ilustrasi grafis dari sedikit simulasi, dibuat dengan kode di bawah ini:

EDIT: Sebagai tanggapan atas saran @ kjetilbhalvorsen dan @ RichardHardy, saya juga menyertakan median ysaya, MLE dari parameter lokasi pf pada (4) distribusi (saya mendapat peringatan In log(s) : NaNs producedbahwa saya tidak memeriksa lebih lanjut) dan penduga Huber dalam plot.

enter image description here

Kami mengamati bahwa semua penduga tampaknya tidak bias. Namun, estimator yang menggunakan bobotwsaya=(1±ϵ)/nkarena bobot untuk separuh sampel lebih bervariasi, seperti median, MLE distribusi-t dan penduga Huber (yang terakhir hanya sedikit, lihat juga di sini ).

Bahwa tiga yang terakhir dikalahkan oleh solusi OLS tidak segera tersirat oleh properti BIRU (setidaknya tidak bagi saya), karena tidak jelas apakah mereka adalah penduga linier (juga saya tidak tahu apakah MLE dan Huber tidak bias).

library(MASS)
n <- 100      
reps <- 1e6

epsilon <- 0.5
w <- c(rep((1+epsilon)/n,n/2),rep((1-epsilon)/n,n/2))

ols <- weightedestimator <- lad <- mle.t4 <- huberest <- rep(NA,reps)

for (i in 1:reps)
{
  y <- rnorm(n)
  ols[i] <- mean(y)
  weightedestimator[i] <- crossprod(w,y)  
  lad[i] <- median(y)   
  mle.t4[i] <- fitdistr(y, "t", df=4)$estimate[1]
  huberest[i] <- huber(y)$mu
}

plot(density(ols), col="purple", lwd=3, main="Kernel-estimate of density of OLS and other estimators",xlab="")
lines(density(weightedestimator), col="lightblue2", lwd=3)     
lines(density(lad), col="salmon", lwd=3)     
lines(density(mle.t4), col="green", lwd=3)
lines(density(huberest), col="#949413", lwd=3)
abline(v=0,lty=2)
legend('topright', c("OLS","weighted","median", "MLE t, 4 df", "Huber"), col=c("purple","lightblue","salmon","green", "#949413"), lwd=3)
Christoph Hanck
sumber
2
Neat! I think this is a very simple illustrative example, bit more general than the one I came up with. When people are learning about estimators in a frequentist setting I feel that these kind of examples are often missing, they really help you get a better grasp of the concept.
Gumeo
4
Another possibility would be (robust) estimators based on minimizing a criterion such as W=i=1nw(ei) where ei is the ith residual and w is some symmetric function, convex or non-convex, with (global) minimum at 0, w(0)=0. The Huber estimator would be an example.
kjetil b halvorsen
1
@kjetilbhalvorsen, I now also include the Huber estimator, which actually does rather well.
Christoph Hanck