Penjelasan gamblang untuk “stabilitas numerik inversi matriks” dalam regresi ridge dan perannya dalam mengurangi overfit

Saya mengerti bahwa kita dapat menggunakan regularisasi dalam masalah regresi kuadrat terkecil sebagai

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

dan bahwa masalah ini memiliki solusi bentuk tertutup seperti:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

Kita melihat bahwa dalam persamaan ke-2, regularisasi hanya menambahkan $\lambda$ ke diagonal $\boldsymbol{X}^T\boldsymbol{X}$ , yang dilakukan untuk meningkatkan stabilitas numerik inversi matriks.

Pemahaman 'kasar' saya saat ini tentang stabilitas numerik adalah bahwa jika suatu fungsi menjadi lebih 'stabil secara numerik' maka outputnya akan kurang dipengaruhi secara signifikan oleh noise pada inputnya. Saya mengalami kesulitan menghubungkan konsep peningkatan stabilitas numerik ini dengan gambaran yang lebih besar tentang bagaimana ia menghindari / mengurangi masalah overfitting.

Saya telah mencoba melihat Wikipedia dan beberapa situs web universitas lainnya, tetapi mereka tidak menjelaskan mengapa hal ini terjadi.

regression regularization ridge-regression overfitting matrix-inverse pemula
sumber

Regresi Ridge muncul di pikiran. tautan

EngrStudent

Anda mungkin menemukan beberapa nilai dalam diskusi (kebanyakan deskriptif / intuitif daripada aljabar) di Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta ke diagonal?

Glen_b -Reinstate Monica

Jawaban:

Dalam model linier , dengan asumsi kesalahan tidak berkorelasi dengan rata-rata nol dan memiliki peringkat kolom penuh, penaksir kuadrat terkecil adalah penaksir yang tidak bias untuk parameter . Namun, penaksir ini dapat memiliki varian yang tinggi. Misalnya, ketika dua kolom sangat berkorelasi. $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

Parameter penalti menjadikan penaksir yang bias dari , tetapi menurunkan variansnya. Juga, adalah harapan posterior dalam regresi Bayesian dengan sebelum . Dalam pengertian itu, kami memasukkan beberapa informasi ke dalam analisis yang mengatakan komponen seharusnya tidak terlalu jauh dari nol. Sekali lagi, ini membawa kita ke estimasi titik bias dari tetapi mengurangi varian estimasi. $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

Dalam pengaturan di mana dimensi tinggi, katakan , kuadrat terkecil cocok akan cocok dengan data hampir sempurna. Meskipun tidak bias, estimasi ini akan sangat sensitif terhadap fluktuasi data karena dalam dimensi yang begitu tinggi, akan ada banyak poin dengan leverage yang tinggi. Dalam situasi seperti itu tanda dari beberapa komponen dapat ditentukan dengan satu pengamatan. Istilah penalti memiliki efek menyusutkan estimasi ini ke nol, yang dapat mengurangi MSE estimator dengan mengurangi varians. $X$ $N \approx p$ $\hat{\beta}$

Sunting: Dalam tanggapan awal saya, saya memberikan tautan ke makalah yang relevan dan dengan tergesa-gesa saya menghapusnya. Ini dia: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

HStamper
sumber

Dalam bentuknya yang sekarang, ini lebih merupakan komentar; apakah Anda pikir Anda bisa menyempurnakannya menjadi jawaban yang substantif?

Silverfish

Bagian bawah p. 5 kanan / atas hal. 6 kiri, yang berkaitan dengan Gambar 3, berisi diskusi utama untuk pertanyaan yang diajukan dalam posting ini.

Mark L. Stone

Ini semua benar, tetapi saya tidak yakin itu menjawab pertanyaan OP.

amoeba

amoeba, lihat komentar saya di atas, yang merujuk pada tautan yang kemudian diedit dari jawaban Eric Mittman , jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .

Mark L. Stone

Stabilitas numerik dan overfitting dalam beberapa hal terkait tetapi berbeda masalah.

Masalah OLS klasik:

Pertimbangkan masalah kuadrat terkecil klasik:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

Solusinya adalah klasik . Gagasannya adalah bahwa dengan hukum sejumlah besar: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

Karenanya estimasi OLS juga menyatu dengan . (Dalam istilah aljabar linier, ini adalah proyeksi linear variabel acak ke rentang linear variabel acak .) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

Masalah?

Secara mekanis, apa yang salah? Apa masalah yang mungkin terjadi?

Untuk sampel kecil, perkiraan sampel kami dari dan mungkin buruk. $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
Jika kolom adalah collinear (baik karena collinearity yang melekat atau ukuran sampel kecil), masalahnya akan memiliki rangkaian solusi! Solusinya mungkin tidak unik.
- Ini terjadi jika adalah kekurangan peringkat. $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- Ini juga terjadi jika kekurangan peringkat karena ukuran sampel yang kecil relatif terhadap jumlah masalah regressor. $X'X$

Masalah (1) dapat menyebabkan overfitting ketika perkiraan mulai mencerminkan pola dalam sampel yang tidak ada dalam populasi yang mendasarinya. Perkiraan tersebut mungkin mencerminkan pola dalam dan yang sebenarnya tidak ada di dan $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

Masalah (2) berarti solusi tidak unik. Bayangkan kita mencoba memperkirakan harga sepatu individual tetapi sepasang sepatu selalu dijual bersama. Ini adalah masalah yang keliru, tetapi katakanlah kita tetap melakukannya. Kita mungkin percaya bahwa harga sepatu kiri ditambah harga sepatu kanan sama dengan $ 50, tetapi bagaimana kita bisa menghasilkan harga individual? Apakah menetapkan harga sepatu kiri dan harga sepatu kanan ok? Bagaimana kita bisa memilih dari semua kemungkinan? $p_l = 45$ $p_r = 5$

Memperkenalkan penalti : $L_2$

Sekarang pertimbangkan:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

Ini dapat membantu kami dengan kedua jenis masalah tersebut. The penalti mendorong perkiraan kami menuju nol. Ini berfungsi secara efektif sebagai Bayesian sebelum distribusi nilai koefisien berpusat di sekitar . Itu membantu dengan overfitting. Perkiraan kami akan mencerminkan data dan keyakinan awal kami bahwa hampir nol. $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ regularisasi juga selalu kita temukan solusi unik untuk masalah yang keliru. Jika kita tahu harga total sepatu kiri dan kanan menjadi , solusi yang juga meminimalkan norma adalah memilih . $\$50$ $L_2$ $p_l = p_r = 25$

Apakah ini sihir? Tidak. Peraturan tidak sama dengan menambahkan data yang benar-benar memungkinkan kita untuk menjawab pertanyaan. regularisasi dalam beberapa hal mengadopsi pandangan bahwa jika Anda kekurangan data, pilih perkiraan lebih dekat ke . $L_2$ $0$

Matthew Gunn
sumber

Penjelasan gamblang untuk “stabilitas numerik inversi matriks” dalam regresi ridge dan perannya dalam mengurangi overfit

Jawaban:

Masalah OLS klasik:

Masalah?

Memperkenalkan penalti :L2L2L_2

Memperkenalkan penalti : $L_2$