Saya mengerti bahwa kita dapat menggunakan regularisasi dalam masalah regresi kuadrat terkecil sebagai
dan bahwa masalah ini memiliki solusi bentuk tertutup seperti:
Kita melihat bahwa dalam persamaan ke-2, regularisasi hanya menambahkan ke diagonal , yang dilakukan untuk meningkatkan stabilitas numerik inversi matriks.
Pemahaman 'kasar' saya saat ini tentang stabilitas numerik adalah bahwa jika suatu fungsi menjadi lebih 'stabil secara numerik' maka outputnya akan kurang dipengaruhi secara signifikan oleh noise pada inputnya. Saya mengalami kesulitan menghubungkan konsep peningkatan stabilitas numerik ini dengan gambaran yang lebih besar tentang bagaimana ia menghindari / mengurangi masalah overfitting.
Saya telah mencoba melihat Wikipedia dan beberapa situs web universitas lainnya, tetapi mereka tidak menjelaskan mengapa hal ini terjadi.
Jawaban:
Dalam model linier , dengan asumsi kesalahan tidak berkorelasi dengan rata-rata nol dan memiliki peringkat kolom penuh, penaksir kuadrat terkecil adalah penaksir yang tidak bias untuk parameter . Namun, penaksir ini dapat memiliki varian yang tinggi. Misalnya, ketika dua kolom sangat berkorelasi.X ( X T X ) - 1 X T Y β XY= Xβ+ ϵ X ( XTX)- 1XTY β X
Parameter penalti menjadikan penaksir yang bias dari , tetapi menurunkan variansnya. Juga, adalah harapan posterior dalam regresi Bayesian dengan sebelum . Dalam pengertian itu, kami memasukkan beberapa informasi ke dalam analisis yang mengatakan komponen seharusnya tidak terlalu jauh dari nol. Sekali lagi, ini membawa kita ke estimasi titik bias dari tetapi mengurangi varian estimasi.w β w β N ( 0 , 1λ w^ β w^ β βββN( 0 , 1λsaya) β β β
Dalam pengaturan di mana dimensi tinggi, katakan , kuadrat terkecil cocok akan cocok dengan data hampir sempurna. Meskipun tidak bias, estimasi ini akan sangat sensitif terhadap fluktuasi data karena dalam dimensi yang begitu tinggi, akan ada banyak poin dengan leverage yang tinggi. Dalam situasi seperti itu tanda dari beberapa komponen dapat ditentukan dengan satu pengamatan. Istilah penalti memiliki efek menyusutkan estimasi ini ke nol, yang dapat mengurangi MSE estimator dengan mengurangi varians.N ≈ p βX N≈ hlm β^
Sunting: Dalam tanggapan awal saya, saya memberikan tautan ke makalah yang relevan dan dengan tergesa-gesa saya menghapusnya. Ini dia: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
sumber
Stabilitas numerik dan overfitting dalam beberapa hal terkait tetapi berbeda masalah.
Masalah OLS klasik:
Pertimbangkan masalah kuadrat terkecil klasik:
Solusinya adalah klasik . Gagasannya adalah bahwa dengan hukum sejumlah besar:b^=(X′X)−1(X′y)
Karenanya estimasi OLS juga menyatu dengan . (Dalam istilah aljabar linier, ini adalah proyeksi linear variabel acak ke rentang linear variabel acak .) E[xx']-1E[xy]yx1,x2,...,xkb^ E[xx′]−1E[xy] y x1,x2,…,xk
Masalah?
Secara mekanis, apa yang salah? Apa masalah yang mungkin terjadi?
Masalah (1) dapat menyebabkan overfitting ketika perkiraan mulai mencerminkan pola dalam sampel yang tidak ada dalam populasi yang mendasarinya. Perkiraan tersebut mungkin mencerminkan pola dalam dan yang sebenarnya tidak ada di dan 1b^ 11nX′X E[xx′]E[xy]1nX′y E[xx′] E[xy]
Masalah (2) berarti solusi tidak unik. Bayangkan kita mencoba memperkirakan harga sepatu individual tetapi sepasang sepatu selalu dijual bersama. Ini adalah masalah yang keliru, tetapi katakanlah kita tetap melakukannya. Kita mungkin percaya bahwa harga sepatu kiri ditambah harga sepatu kanan sama dengan $ 50, tetapi bagaimana kita bisa menghasilkan harga individual? Apakah menetapkan harga sepatu kiri dan harga sepatu kanan ok? Bagaimana kita bisa memilih dari semua kemungkinan?p r = 5pl=45 pr=5
Memperkenalkan penalti :L2
Sekarang pertimbangkan:
Ini dapat membantu kami dengan kedua jenis masalah tersebut. The penalti mendorong perkiraan kami menuju nol. Ini berfungsi secara efektif sebagai Bayesian sebelum distribusi nilai koefisien berpusat di sekitar . Itu membantu dengan overfitting. Perkiraan kami akan mencerminkan data dan keyakinan awal kami bahwa hampir nol.b 0 bL2 b 0 b
$ 50 L 2 p l = p r = 25L2 regularisasi juga selalu kita temukan solusi unik untuk masalah yang keliru. Jika kita tahu harga total sepatu kiri dan kanan menjadi , solusi yang juga meminimalkan norma adalah memilih .$50 L2 pl=pr=25
Apakah ini sihir? Tidak. Peraturan tidak sama dengan menambahkan data yang benar-benar memungkinkan kita untuk menjawab pertanyaan. regularisasi dalam beberapa hal mengadopsi pandangan bahwa jika Anda kekurangan data, pilih perkiraan lebih dekat ke . 0L2 0
sumber