Bukti formula LOOCV

Dari Pengantar Pembelajaran Statistik oleh James et al., Taksiran lintas-validasi silang (LOOCV) taksiran didefinisikan oleh mana .

{CV}_{(n)} = \frac{1}{n} \sum_{i = 1}^{n} {MSE}_{i}

$\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i$

{MSE}_{i} = (y_{i} - {\hat{y}}_{i})^{2}

$\text{MSE}_i = (y_i-\hat{y}_i)^2$

Tanpa bukti, persamaan (5.2) menyatakan bahwa untuk regresi kuadrat-terkecil atau polinomial (apakah ini berlaku untuk regresi hanya pada satu variabel tidak diketahui oleh saya), mana " berada yang th nilai dipasang dari kuadrat asli muat ( tidak tahu apa ini berarti, dengan cara , artinya menggunakan semua poin dalam data set?) dan adalah leverage" yang didefinisikan oleh

{CV}_{(n)} = \frac{1}{n} \sum_{i = 1}^{n} {(\frac{y_{i} - {\hat{y}}_{i}}{1 - h_{i}})}^{2}

$\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2$

{\hat{y}}_{i}

$\hat{y}_i$

i

$i$

h_{i}

$h_i$

h_{saya} = \frac{1}{n} + \frac{(x_{saya} - \bar{x})^{2}}{\sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}} .

$h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.}$

Bagaimana seseorang membuktikan ini?

Upaya saya: orang bisa mulai dengan memperhatikan bahwa tetapi terpisah dari ini (dan jika saya ingat, rumus untuk hanya berlaku untuk regresi linier sederhana ...), saya tidak yakin bagaimana melanjutkan dari sini.

{\hat{y}}_{saya} = β_{0} + \sum_{saya = 1}^{k} β_{k} X_{k} + beberapa istilah derajat jumlahnya banyak \geq 2

$\hat{y}_i = \beta_0 + \sum\limits_{i=1}^{k}\beta_k X_k + \text{some polynomial terms of degree }\geq 2$

h_{i}

$h_i$

regression self-study cross-validation least-squares Klarinetis
sumber

Entah persamaan Anda tampaknya menggunakan untuk lebih dari satu hal atau saya sangat bingung. Either way kejelasan tambahan akan baik.

i

$i$

Glen_b -Reinstate Monica

@ Glen_b Saya baru belajar tentang LOOCV kemarin, jadi saya mungkin tidak mengerti beberapa hal dengan benar. Dari apa yang saya mengerti, Anda memiliki satu set titik data, katakanlah . Dengan LOOCV, Anda memiliki untuk setiap perbaikan (bilangan bulat positif) beberapa set validasi dan set tes digunakan untuk menghasilkan model yang cocok untuk setiap . Jadi katakanlah, misalnya, kami menyesuaikan model kami menggunakan regresi linier sederhana dengan tiga titik data, . Kami akan (akan dilanjutkan)

X = {(x_{i}, y_{i}) : i \in Z^{+}}

$\mathcal{X} = \{(x_i, y_i): i \in \mathbb{Z}^+\}$

k

$k$

V_{k} = {(x_{k}, y_{k})}

$\mathcal{V}_k = \{(x_k, y_k)\}$

T_{k} = X ∖ V_{k}

$\mathcal{T}_k = \mathcal{X}\setminus \mathcal{V}_k$

k

$k$

X = {(0, 1), (1, 2), (2, 3)}

$\mathcal{X} = \{(0, 1), (1, 2), (2,3)\}$

Klarinetis

@Glen_b

dan

. Menggunakan poin di

, kita dapat menemukan bahwa menggunakan regresi linier sederhana, kita mendapatkan model

. Kemudian kami menghitung

menggunakan

sebagai set validasi dan dapatkan

V_{1} = {(0, 1)}

$\mathcal{V}_1 = \{(0, 1)\}$

T_{1} = {(1, 2), (2, 3)}

$\mathcal{T}_1 = \{(1, 2), (2, 3)\}$

T_{1}

$\mathcal{T}_1$

{\hat{y}}_{i} = X + 1

$\hat{y}_i = X + 1$

MSE

$\text{MSE}$

V_{1}

$\mathcal{V}_1$

y_{1} = 1

$y_1 = 1$ (hanya menggunakan titik tertentu) dan

, memberikan

. Oke, mungkin menggunakan superscript itu bukan ide terbaik - saya akan mengubahnya di posting asli.

{\hat{y}}_{1}^{(1)} = 0 + 1 = 1

$\hat{y}_1^{(1)} = 0 + 1 = 1$

{MSE}_{1} = 0

$\text{MSE}_1 = 0$

Klarinetis

berikut adalah beberapa catatan kuliah pada derivasi pages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...

Xavier Bourret Sicotte

Aku akan menunjukkan hasilnya untuk regresi linier berganda, apakah regressors adalah polinomial dari atau tidak. Pada kenyataannya, ini menunjukkan sedikit lebih dari apa yang Anda minta, karena itu menunjukkan bahwa setiap residu LOOCV identik dengan residu tertimbang leverage yang sesuai dari regresi penuh, bukan hanya Anda dapat memperoleh kesalahan LOOCV seperti pada (5.2) (ada bisa menjadi cara lain di mana rata-rata setuju, bahkan jika tidak setiap istilah dalam rata-rata adalah sama). $X_t$

Biarkan saya mengambil kebebasan untuk menggunakan notasi yang sedikit disesuaikan.

Kami pertama menunjukkan bahwa di mana adalah estimasi dengan menggunakan semua data danperkiraan ketika meninggalkan keluar, observasi. Marididefinisikan sebagai vektor baris sehingga . adalah residual.

\begin{aligned} \hat{β} - {\hat{β}}_{(t)} & = (\frac{{\hat{u}}_{t}}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'}, (A) \end{aligned}

$\begin{align*} \hat\beta-\hat\beta_{(t)}&=\left(\frac{\hat u_t}{1-h_t}\right)(X'X)^{-1}X_t', \quad\quad \textrm{(A)} \end{align*}$

\hat{β}

$\hat\beta$

{\hat{β}}_{(t)}

$\hat\beta_{(t)}$

X_{(t)}

$X_{(t)}$

t

$t$

X_{t}

$X_t$

{\hat{y}}_{t} = X_{t} \hat{β}

$\hat y_t=X_t\hat\beta$

{\hat{u}}_{t}

$\hat u_t$

Buktinya menggunakan hasil aljabar matriks berikut.

Misalkan menjadi matriks nonsingular, a vektor dan skalar. Jika $A$ $b$ $\lambda$ Lalu

\begin{aligned} λ & \neq - \frac{1}{b^{'} A^{- 1} b} \end{aligned}

$\begin{align*} \lambda&\neq -\frac{1}{b'A^{-1}b} \end{align*}$

\begin{aligned} (A + λ b b^{'})^{- 1} & = A^{- 1} - (\frac{λ}{1 + λ b^{'} A^{- 1} b}) A^{- 1} b b^{'} A^{- 1} (B) \end{aligned}

$\begin{align*} (A+\lambda bb')^{-1}&=A^{-1}-\left(\frac{\lambda}{1+\lambda b'A^{-1}b}\right)A^{-1}bb'A^{-1}\quad\quad \textrm{(B) }\end{align*}$

Bukti (B) segera mengikuti verifikasi

\begin{aligned} {A^{- 1} - (\frac{λ}{1 + λ b^{'} A^{- 1} b}) A^{- 1} b b^{'} A^{- 1}} (A + λ b b^{'}) = I . \end{aligned}

$\begin{align*} \left\{A^{-1}-\left(\frac{\lambda}{1+\lambda b'A^{-1}b}\right)A^{-1}bb'A^{-1}\right\}(A+\lambda bb')=I. \end{align*}$

Hasil berikut sangat membantu untuk membuktikan (A)

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} = (\frac{1}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'} . (C) \end{aligned}

$\begin{align} (X_{(t)}'X_{(t)})^{-1}X_t'=\left(\frac{1}{1-h_t}\right)(X'X)^{-1}X_t'.\quad\quad \textrm{ (C)} \end{align}$

Bukti (C): Dengan (B) yang kita miliki, menggunakan , $\sum_{t=1}^TX_t'X_t=X'X$ Jadi kami menemukan

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} & = (X^{'} X - X_{t}^{'} X_{t})^{- 1} \\ = (X^{'} X)^{- 1} + \frac{(X^{'} X)^{- 1} X_{t}^{'} X_{t} (X^{'} X)^{- 1}}{1 - X_{t} (X^{'} X)^{- 1} X_{t}^{'}} . \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)})^{-1}&=(X'X-X_t'X_t)^{-1}\\ &=(X'X)^{-1}+\frac{(X'X)^{-1}X_t'X_t(X'X)^{-1}}{1-X_t(X'X)^{-1}X_t'}. \end{align*}$

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} & = (X^{'} X)^{- 1} X_{t}^{'} + (X^{'} X)^{- 1} X_{t}^{'} (\frac{X_{t} (X^{'} X)^{- 1} X_{t}^{'}}{1 - X_{t} (X^{'} X)^{- 1} X_{t}^{'}}) \\ = (\frac{1}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'} . \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)})^{-1}X_t'&=(X'X)^{-1}X_t'+(X'X)^{-1}X_t'\left(\frac{X_t(X'X)^{-1}X_t'}{1-X_t(X'X)^{-1}X_t'}\right)\\ &=\left(\frac{1}{1-h_t}\right)(X'X)^{-1}X_t'. \end{align*}$

\begin{aligned} X^{'} X \hat{β} & = X^{'} y, \end{aligned}

$\begin{align*} X'X\hat\beta&=X'y, \end{align*}$

\begin{aligned} (X_{(t)}^{'} X_{(t)} + X_{t}^{'} X_{t}) \hat{β} & = X_{(t)}^{'} y_{(t)} + X_{t}^{'} y_{t}, \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)}+X_t'X_t)\hat\beta &=X_{(t)}'y_{(t)}+X_t' y_t, \end{align*}$

\begin{aligned} {I_{k} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} X_{t}} \hat{β} & = {\hat{β}}_{(t)} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} (X_{t} \hat{β} + {\hat{u}}_{t}) . \end{aligned}

$\begin{align*} \left\{I_k+(X_{(t)}'X_{(t)})^{-1}X_t'X_t\right\}\hat\beta&=\hat\beta_{(t)}+(X_{(t)}'X_{(t)})^{-1}X_t'(X_t\hat\beta+\hat u_t). \end{align*}$ So,

\begin{aligned} \hat{β} & = {\hat{β}}_{(t)} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} {\hat{u}}_{t} \\ = {\hat{β}}_{(t)} + (X^{'} X)^{- 1} X_{t}^{'} \frac{{\hat{u}}_{t}}{1 - h_{t}}, \end{aligned}

$\begin{align*} \hat\beta&=\hat\beta_{(t)}+(X_{(t)}'X_{(t)})^{-1}X_t'\hat u_t\\ &=\hat\beta_{(t)}+(X'X)^{-1}X_t'\frac{\hat u_t}{1-h_t}, \end{align*}$ where the last equality follows from (C).

Now, note $h_t=X_t(X'X)^{-1}X_t'$ . Multiply through in (A) by $X_t$ , add $y_t$ on both sides and rearrange to get, with $\hat u_{(t)}$ the residuals resulting from using $\hat\beta_{(t)}$ ( $y_t-X_t\hat\beta_{(t)}$ ),

{\hat{u}}_{(t)} = {\hat{u}}_{t} + (\frac{{\hat{u}}_{t}}{1 - h_{t}}) h_{t}

$\hat u_{(t)}=\hat u_t+\left(\frac{\hat u_t}{1-h_t}\right)h_t$ or

{\hat{u}}_{(t)} = \frac{{\hat{u}}_{t} (1 - h_{t}) + {\hat{u}}_{t} h_{t}}{1 - h_{t}} = \frac{{\hat{u}}_{t}}{1 - h_{t}}

$\hat u_{(t)}=\frac{\hat u_t(1-h_t)+\hat u_th_t}{1-h_t}=\frac{\hat u_t}{1-h_t}$

Christoph Hanck
sumber

The definition for

X_{(t)}

$X_{(t)}$ is missing in your answer. I assume this is a matrix

X

$X$ with row

X_{t}

$X_t$ removed.

mpiktas

Also mentioning the fact that

X^{'} X = \sum_{t = 1}^{T} X_{t}^{'} X_{t}

$X'X=\sum_{t=1}^T X_t'X_t$ would be helpful too.

mpiktas

@mpiktas, yes, thanks for the pointers. I edited to take the first comment into account. Where exactly would the second help? Or just leave it in your comment?

Christoph Hanck

When you start the proof of (C) you write

(X_{(t)}^{'} X_{(t)})^{- 1} = (X^{'} X - X_{t}^{'} X_{t})^{- 1}

$(X_{(t)}'X_{(t)})^{-1}=(X'X-X_t'X_t)^{-1}$ . That is a nice trick, but I doubt that casual reader is aware of it.

mpiktas

Dua tahun kemudian ... Saya lebih menghargai jawaban ini, sekarang saya telah melalui urutan model linier tingkat pascasarjana. Saya mempelajari kembali materi ini dengan perspektif baru ini. Apakah Anda memiliki referensi yang disarankan (buku teks?) Yang melewati derivasi seperti apa yang Anda miliki dalam jawaban ini secara detail?

Klarinetis

Bukti formula LOOCV

Jawaban: