Interval prediksi bootstrap

Metode yang dijelaskan di bawah ini adalah yang dijelaskan dalam Bagian 6.3.3 dari Davidson dan Hinckley (1997), Metode Bootstrap dan Penerapannya . Terima kasih untuk Glen_b dan komentarnya di sini . Mengingat ada beberapa pertanyaan tentang Cross yang divalidasi pada topik ini, saya pikir itu layak ditulis.

Model regresi linier adalah:

\begin{aligned} Y_{i} & = X_{i} β + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= X_i\beta+\epsilon_i \end{align}$

Kami memiliki data, , yang kita gunakan untuk memperkirakan $i=1,2,\ldots,N$ $\beta$

\begin{aligned} {\hat{β}}_{OLS} & = {(X^{'} X)}^{- 1} X^{'} Y \end{aligned}

$\begin{align} \hat{\beta}_{\text{OLS}} &= \left( X'X \right)^{-1}X'Y \end{align}$

Sekarang, kami ingin memprediksi apa yang akan menjadi untuk titik data baru, mengingat bahwa kami tahu untuk itu. Ini adalah masalah prediksi. Mari panggilan baru (yang kita tahu) dan baru (yang kita ingin memprediksi), . Prediksi yang biasa (jika kita mengasumsikan bahwa adalah iid dan tidak berkorelasi dengan ) adalah: $Y$ $X$ $X$ $X_{N+1}$ $Y$ $Y_{N+1}$ $\epsilon_i$ $X$

\begin{aligned} Y_{N + 1}^{p} & = X_{N + 1} {\hat{β}}_{OLS} \end{aligned}

$\begin{align} Y^p_{N+1} &= X_{N+1}\hat{\beta}_{\text{OLS}} \end{align}$

Kesalahan perkiraan yang dibuat oleh prediksi ini adalah:

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1} \end{align}$

Kita dapat menulis ulang persamaan ini seperti:

\begin{aligned} Y_{N + 1} & = Y_{N + 1}^{p} + e_{N + 1}^{p} \end{aligned}

$\begin{align} Y_{N+1} &= Y^p_{N+1} + e^p_{N+1} \end{align}$

Sekarang, kita sudah dihitung. Jadi, jika kita ingin terikat di interval, katakanlah, 90% dari waktu, semua yang perlu kita lakukan adalah perkiraan konsisten dan persentil / quantiles dari , panggilan mereka , dan interval prediksi akan $Y^p_{N+1}$ $Y_{N+1}$ $5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$ . $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$

Bagaimana cara memperkirakan kuantil / persentil dari ? Kita bisa menulis: $e^p_{N+1}$

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \\ = X_{N + 1} β + ϵ_{N + 1} - X_{N + 1} {\hat{β}}_{OLS} \\ = X_{N + 1} (β - {\hat{β}}_{OLS}) + ϵ_{N + 1} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1}\\ &= X_{N+1}\beta + \epsilon_{N+1} - X_{N+1}\hat{\beta}_{\text{OLS}}\\ &= X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right) + \epsilon_{N+1} \end{align}$

Strateginya adalah dengan mengambil sampel (dengan cara bootstrap) berkali-kali dari dan kemudian menghitung persentil dengan cara biasa. Jadi, mungkin kita akan sampel 10.000 kali dari , dan kemudian perkirakan persentil dan sebagai dan anggota terkecil dari sampel. $e^p_{N+1}$ $e^p_{N+1}$ $5^{th}$ $95^{th}$ $500^{th}$ $9,500^{th}$

Untuk menggambar pada , kita dapat bootstrap kesalahan (kasus akan baik-baik saja, juga, tapi kita mengasumsikan kesalahan iid pula). Jadi, pada setiap replikasi bootstrap, Anda menggambar kali dengan penggantian dari residual variance-disesuaikan (lihat butir berikutnya) untuk mendapatkan , kemudian membuat yang baru , kemudian jalankan OLS pada dataset baru, $X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $N$ $\epsilon^*_i$ $Y^*_i=X_i\hat{\beta}_{\text{OLS}}+\epsilon^*_i$ $\left(Y^*,X \right)$ untuk mendapatkan replikasi ini . Akhirnya, hasil imbang ini replikasi pada adalah $\beta^*_r$ $X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)$

Mengingat kita mengasumsikan iid , cara alami untuk mengambil sampel dari bagian dari persamaan adalah dengan menggunakan residu yang kita miliki dari regresi, . Residual memiliki varian yang berbeda dan umumnya terlalu kecil, jadi kami ingin mengambil sampel dari $\epsilon$ $\epsilon_{N+1}$ $\left\{ e^*_1,e^*_2,\ldots,e^*_N \right\}$ $\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s} \right\}$ , varians-residuals yang dikoreksi, di mana danadalah leverage dari pengamatan. $s_i=e^*_i/\sqrt{(1-h_i)}$ $h_i$ $i$

Dan, akhirnya, algoritma untuk membuat interval prediksi 90% untuk , mengingat bahwa adalah adalah: $Y_{N+1}$ $X$ $X_{N+1}$

Membuat prediksi . $Y^p_{N+1}=X_{N+1}\hat{\beta}_{\text{OLS}}$
Buat residu yang disesuaikan dengan varians, , di mana $\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s}\right\}$ . $s_i=e_i/\sqrt(1-h_{i})$
Untuk replikasi :
- Gambar kali pada residu yang disesuaikan untuk membuat resid bootstrap $N$ $\left\{\epsilon^*_1,\epsilon^*_2,\ldots,\epsilon^*_N \right\}$
- Menghasilkan bootstrap $Y^*=X\hat{\beta}_{\text{OLS}}+\epsilon^*$
- Hitung estimator bootstrap OLS untuk replikasi ini, $\beta^*_r=\left( X'X \right)^{-1}X'Y^*$
- Dapatkan sisa bootstrap dari replikasi ini, $e^*_r=Y^*-X\beta^*_r$
- Hitung residu yang disesuaikan dengan varian bootstrap dari replikasi ini, $s^*-\overline{s^*}$
- Menarik salah satu bootstrap varians-disesuaikan residual dari replikasi ini, $\epsilon^*_{N+1,r}$
- $e^p_{N+1}$ $e^{p*}_r=X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)+\epsilon^*_{N+1,r}$
$5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$
$Y_{N+1}$ $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$ .

Here is R code:

# This script gives an example of the procedure to construct a prediction interval
# for a linear regression model using a bootstrap method.  The method is the one
# described in Section 6.3.3 of Davidson and Hinckley (1997),
# _Bootstrap Methods and Their Application_.


#rm(list=ls())
set.seed(12344321)
library(MASS)
library(Hmisc)

# Generate bivariate regression data
x <- runif(n=100,min=0,max=100)
y <- 1 + x + (rexp(n=100,rate=0.25)-4)

my.reg <- lm(y~x)
summary(my.reg)

# Predict y for x=78:
y.p <- coef(my.reg)["(Intercept)"] + coef(my.reg)["x"]*78
y.p

# Create adjusted residuals
leverage <- influence(my.reg)$hat
my.s.resid <- residuals(my.reg)/sqrt(1-leverage)
my.s.resid <- my.s.resid - mean(my.s.resid)


reg <- my.reg
s <- my.s.resid

the.replication <- function(reg,s,x_Np1=0){
  # Make bootstrap residuals
  ep.star <- sample(s,size=length(reg$residuals),replace=TRUE)

  # Make bootstrap Y
  y.star <- fitted(reg)+ep.star

  # Do bootstrap regression
  x <- model.frame(reg)[,2]
  bs.reg <- lm(y.star~x)

  # Create bootstrapped adjusted residuals
  bs.lev <- influence(bs.reg)$hat
  bs.s   <- residuals(bs.reg)/sqrt(1-bs.lev)
  bs.s   <- bs.s - mean(bs.s)

  # Calculate draw on prediction error
  xb.xb <- coef(my.reg)["(Intercept)"] - coef(bs.reg)["(Intercept)"] 
  xb.xb <- xb.xb + (coef(my.reg)["x"] - coef(bs.reg)["x"])*x_Np1
  return(unname(xb.xb + sample(bs.s,size=1)))
}

# Do bootstrap with 10,000 replications
ep.draws <- replicate(n=10000,the.replication(reg=my.reg,s=my.s.resid,x_Np1=78))

# Create prediction interval
y.p+quantile(ep.draws,probs=c(0.05,0.95))

# prediction interval using normal assumption
predict(my.reg,newdata=data.frame(x=78),interval="prediction",level=0.90)


# Quick and dirty Monte Carlo to see which prediction interval is better
# That is, what are the 5th and 95th percentiles of Y_{N+1}
# 
# To do it properly, I guess we would want to do the whole procedure above
# 10,000 times and then see what percentage of the time each prediction 
# interval covered Y_{N+1}

y.np1 <- 1 + 78 + (rexp(n=10000,rate=0.25)-4)
quantile(y.np1,probs=c(0.05,0.95))

Bill
sumber

Thank you for the useful, detailed explanations. Following these lines, I think that a general technique outside OLS (tree based techniques, nearest neighbour etc.) wont be easily available, right?

Michael M

There is this one for random forests: stats.stackexchange.com/questions/49750/… which sounds similar.

Bill

As far as I can tell, if you abstract

X β

$X\beta$ to

f (X, θ)

$f(X, \theta)$ , this technique works for any model.

shadowtalker

How do you generalise the "variance adjusted residuals" - the OLS approach relies on the leverage - is there a leverage calculation for an arbitrary f(X) estimator?

David Waterworth

Interval prediksi bootstrap

Jawaban: