Kapan kotak paling tidak akan menjadi ide yang buruk?

11

Jika saya memiliki model regresi: mana dan ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

kapan akan menggunakan , estimator kuadrat terkecil biasa dari , menjadi pilihan yang buruk untuk estimator?βOLSβ

Saya mencoba mencari tahu contoh kuadrat paling tidak berfungsi dengan baik. Jadi saya mencari distribusi kesalahan yang memuaskan hipotesis sebelumnya tetapi menghasilkan hasil yang buruk. Jika keluarga distribusi akan ditentukan oleh mean dan varians yang akan menjadi besar. Jika tidak, tidak apa-apa juga.

Saya tahu bahwa "hasil buruk" agak kabur, tetapi saya pikir idenya dapat dimengerti.

Hanya untuk menghindari kebingungan, saya tahu paling tidak kuadrat tidak optimal, dan bahwa ada penaksir yang lebih baik seperti regresi ridge. Tapi bukan itu yang saya tuju. Saya ingin contoh kuadrat akan menjadi tidak wajar.

Saya bisa membayangkan hal-hal seperti, vektor kesalahan hidup di daerah non-cembung , tapi saya tidak yakin tentang itu.ϵRn

Sunting 1: Sebagai ide untuk membantu jawaban (yang saya tidak tahu bagaimana harus melangkah lebih jauh). adalah BIRU. Jadi mungkin akan membantu untuk memikirkan kapan estimator linier yang tidak memihak tidak akan menjadi ide yang baik.βOLS

Sunting 2: Seperti yang ditunjukkan Brian, jika dikondisikan buruk, maka adalah ide yang buruk karena varians terlalu besar, dan Regresi Ridge harus digunakan sebagai gantinya. Saya lebih tertarik adalah mengetahui distribusi apa yang harus untuk membuat kuadrat bekerja buruk.XXβOLSε

βOLSβ+(XX)1Xε Apakah ada distribusi dengan mean nol dan matriks varians identitas untuk yang membuat penaksir ini tidak efisien?ε

Manuel
sumber
1
Saya tidak ingin terdengar kasar, tetapi saya tidak sepenuhnya yakin apa yang Anda inginkan. Ada banyak cara sesuatu bisa menjadi pilihan yang buruk. Biasanya, kami mengevaluasi estimator dalam hal hal-hal seperti bias , varians , ketahanan , dan efisiensi . Misalnya, seperti yang Anda perhatikan, penaksir OLS adalah BIRU .
gung - Reinstate Monica
1
OTOH, varians mungkin sangat besar sehingga tidak berguna, membuat estimator yang lebih rendah tetapi bias seperti ridge lebih disukai. Contoh lain adalah bahwa OLS secara maksimal menggunakan semua informasi dalam data Anda, tetapi ini membuatnya rentan terhadap pencilan. Ada banyak fungsi kerugian alternatif yang lebih kuat, sementara berusaha untuk mempertahankan efisiensi. Mungkin lebih jelas jika Anda bisa membingkai ulang pertanyaan Anda dengan istilah seperti ini. Saya tidak tahu apa artinya bagi penaksir menjadi "tidak wajar".
gung - Reinstate Monica
Terima kasih atas komentar Anda, itu membuat saya menyadari ambiguitas pertanyaan itu. Saya harap ini lebih jelas sekarang
Manuel
Lihat regresi dalam jawaban ini . Singkatnya: pencilan yang berpengaruh bisa menjadi masalah.
Glen_b -Reinstate Monica

Jawaban:

8

Jawaban Brian Borchers cukup bagus --- data yang berisi outlier aneh seringkali tidak dianalisis dengan baik oleh OLS. Saya hanya akan memperluas ini dengan menambahkan gambar, Monte Carlo, dan beberapa Rkode.

Pertimbangkan model regresi yang sangat sederhana:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Model ini sesuai dengan pengaturan Anda dengan koefisien kemiringan 1.

Plot terlampir menunjukkan dataset yang terdiri dari 100 pengamatan pada model ini, dengan variabel x berjalan dari 0 hingga 1. Dalam dataset yang diplot, ada satu gambar kesalahan yang muncul dengan nilai outlier (+31 dalam kasus ini) . Juga digambarkan garis regresi OLS berwarna biru dan garis regresi deviasi absolut berwarna merah. Perhatikan bagaimana OLS tetapi tidak LAD terdistorsi oleh pencilan:

OLS vs LAD dengan pencilan

Kami dapat memverifikasi ini dengan melakukan Monte Carlo. Di Monte Carlo, saya menghasilkan dataset dari 100 pengamatan menggunakan dan an dengan distribusi di atas 10.000 kali. Dalam 10.000 replikasi itu, kita tidak akan mendapatkan outlier di sebagian besar. Tetapi dalam beberapa kita akan mendapatkan pencilan, dan itu akan mengacaukan OLS tetapi tidak LAD setiap kali. The kode di bawah menjalankan Monte Carlo. Berikut adalah hasil untuk koefisien kemiringan:xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Baik OLS dan LAD menghasilkan estimator yang tidak bias (lereng rata-rata 1,00 lebih dari 10.000 replikasi) OLS menghasilkan estimator dengan standar deviasi yang jauh lebih tinggi, meskipun, 0,34 vs 0,09. Dengan demikian, OLS tidak terbaik / paling efisien di antara penaksir yang tidak memihak, di sini. Ini masih BIRU, tentu saja, tetapi LAD tidak linier, jadi tidak ada kontradiksi. Perhatikan kesalahan liar yang dapat dilakukan OLS di kolom Min dan Max. Tidak begitu LAD.

Berikut adalah kode R untuk grafik dan Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Tagihan
sumber
@Manuel Terima kasih. Saya menemukan kesalahan dalam program R saya --- ada 0,04 di mana seharusnya ada sqrt (0,04). Itu tidak mengubah dorongan jawaban. Itu membuat perbedaan kecil pada hasilnya. Namun, jika Anda menyalin kode sebelumnya, Anda harus menyalinnya lagi sekarang.
Bill
7

Salah satu contoh adalah ketika Anda tidak ingin memperkirakan nilai tengah. Ini muncul dalam pekerjaan yang biasa saya lakukan di mana kami memperkirakan jumlah pasangan seks yang dimiliki orang, sebagai bagian dari pemodelan penyebaran HIV / AIDS. Ada lebih banyak minat pada ekor distribusi: Orang mana yang memiliki banyak pasangan?

Dalam hal ini, Anda bisa menginginkan regresi kuantitatif; metode yang kurang dimanfaatkan, menurut saya.

Peter Flom - Pasang kembali Monica
sumber
β
Y
Ya, yang saya maksud adalah Y. Itulah yang dilakukan regresi OLS.
Peter Flom - Pasang kembali Monica
(xa)2+(xb)2L1
6

X

ϵ

ϵβ

Brian Borchers
sumber
ε
1
Selain itu, Gauss-Markov memastikan kuadrat terkecil menjadi penaksir tidak bias varians minimum di antara linier. Mungkin penaksir linier tidak dapat diterima untuk beberapa jenis distribusi. Itu yang ingin saya mengerti.
Manuel
ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
X=1β=0β^
Saya percaya bahwa komentar kedua Anda adalah apa yang saya cari. Itu hanya mengganggu saya kemungkinan rendah terjadi. Juga dari contoh itu cukup jelas bagaimana membangun estimator yang lebih baik ketika mengetahui distribusi kesalahan.
Manuel