Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?
59
Saya mengerti bahwa estimasi regresi ridge adalah yang meminimalkan jumlah sisa kuadrat dan penalti pada ukuranββ
βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]
Namun, saya tidak sepenuhnya memahami pentingnya fakta bahwa βridge berbeda dari βOLS dengan hanya menambahkan konstanta kecil ke diagonal X′X . Memang,
βOLS=(X′X)−1X′y
Buku saya menyebutkan bahwa ini membuat perkiraan lebih stabil secara numerik - mengapa?
Apakah stabilitas numerik terkait dengan penyusutan menuju 0 dari perkiraan punggungan, atau itu hanya kebetulan?
Dalam regresi yang tidak dilegalisasi, Anda sering bisa mendapatkan punggungan * di ruang parameter, di mana banyak nilai yang berbeda di sepanjang punggungan semua melakukan dengan baik atau hampir juga pada kriteria kuadrat terkecil.
* (setidaknya, ini adalah punggungan dalam fungsi kemungkinan - mereka sebenarnya adalah lembah $ dalam kriteria RSS, tetapi saya akan terus menyebutnya punggungan, karena ini tampaknya konvensional - atau bahkan, seperti yang ditunjukkan Alexis) dalam komentar, saya bisa menyebutnya thalweg , menjadi rekanan lembah dari punggungan)
Di hadapan punggungan dalam kriteria kuadrat terkecil di ruang parameter, penalti yang Anda dapatkan dengan regresi punggungan akan menyingkirkan punggungan dengan mendorong kriteria ke atas saat parameter menjauhi asal:
Dalam plot pertama, perubahan besar dalam nilai parameter (sepanjang punggungan) menghasilkan perubahan kecil dalam kriteria RSS. Ini dapat menyebabkan ketidakstabilan angka; itu sangat sensitif terhadap perubahan kecil (misalnya perubahan kecil dalam nilai data, bahkan kesalahan pemotongan atau pembulatan). Estimasi parameter berkorelasi hampir sempurna. Anda mungkin mendapatkan estimasi parameter yang sangat besar besarnya.
Sebaliknya, dengan mengangkat hal yang meminimalkan regresi ridge (dengan menambahkan hukuman ) ketika parameter jauh dari 0, perubahan kecil dalam kondisi (seperti kesalahan pembulatan atau pemotongan kecil) tidak dapat menghasilkan perubahan besar dalam hasil perkiraan. Istilah penalti menghasilkan penyusutan menuju 0 (menghasilkan beberapa bias). Sejumlah kecil bias dapat membeli peningkatan substansial dalam varians (dengan menghilangkan punggungan itu).L2
Ketidakpastian estimasi berkurang (kesalahan standar berbanding terbalik dengan derivatif kedua, yang diperbesar dengan penalti).
Korelasi dalam estimasi parameter berkurang. Anda sekarang tidak akan mendapatkan estimasi parameter yang besarnya sangat besar jika RSS untuk parameter kecil tidak akan jauh lebih buruk.
Jawaban ini sangat membantu saya memahami susut dan stabilitas numerik. Namun, saya masih tidak jelas tentang bagaimana "menambahkan konstanta kecil ke " mencapai dua hal ini. X′X
Heisenberg
4
Menambahkan konstanta ke diagonal * sama dengan menambahkan parabola bundar yang berpusat di ke RSS (dengan hasil yang ditunjukkan di atas - "menarik" menjauhi nol - menghilangkan punggungan). * (itu belum tentu kecil, itu tergantung pada bagaimana Anda melihatnya dan berapa banyak yang Anda tambahkan)0
Glen_b
6
Glen_b antonim dari "ridge" dalam bahasa Inggris yang Anda cari (jalur / kurva di sepanjang lantai lembah) adalah thalweg . Yang baru saya pelajari sekitar dua minggu yang lalu dan hanya suka. Bahkan tidak terdengar seperti kata bahasa Inggris! : D
Alexis
5
@Alexis Itu tidak diragukan lagi akan menjadi kata yang berguna, jadi terima kasih untuk itu. Ini mungkin tidak terdengar bahasa Inggris karena itu adalah kata Jerman (memang thal adalah 'thal' yang sama seperti dalam " Neanderthal " = "Neander valley", dan weg = 'way'). [Seperti itu, saya ingin "ridge" bukan karena saya tidak bisa memikirkan apa untuk menyebutnya, tetapi karena orang tampaknya menyebutnya ridge apakah mereka melihat kemungkinan atau RSS, dan saya sedang menjelaskan keinginan saya untuk mengikuti konvensi, meskipun tampaknya aneh. Thalweg akan menjadi pilihan yang sangat baik untuk kata yang tepat, jika saya tidak mengikuti thalweg konvensi yang aneh.]
Glen_b
4
X menjadi dekat dengan matriks bukan dari peringkat penuh (dan karenanya X'X menjadi hampir tunggal) tepat ketika punggungan muncul dalam kemungkinan. Bubungan adalah konsekuensi langsung dari hubungan yang hampir linier antara kolom , yang membuat s (hampir) bergantung secara linear. Xβ
Glen_b
28
Memberi +1 pada ilustrasi Glen_b dan komentar statistik tentang estimator Ridge. Saya hanya ingin menambahkan pov matematika murni (aljabar linier) pada regresi Ridge yang menjawab pertanyaan OP 1) dan 2).
Catatan pertama bahwa adalah matriks semidefinit positif simetris - kali matriks kovarian sampel. Karena itu ia memiliki dekomposisi eigenX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Sekarang karena inversi matriks sesuai dengan inversi dari nilai eigen, penaksir OLS membutuhkan (perhatikan bahwa ). Jelas ini hanya berfungsi jika semua nilai eigen benar-benar lebih besar dari nol, . Untuk ini tidak mungkin; untuk secara umum benar - ini kita biasanya berkaitan dengan multikolinieritas .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Sebagai ahli statistik, kami juga ingin tahu bagaimana gangguan kecil dalam data mengubah perkiraan. Jelas bahwa perubahan kecil dalam setiap mengarah ke variasi besar dalam jika sangat kecil.Xdi1/didi
Jadi apa yang dilakukan regresi Ridge adalah memindahkan semua nilai eigen lebih jauh dari nol
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
yang sekarang memiliki nilai eigen . Inilah sebabnya mengapa memilih parameter penalti positif membuat matriks tidak dapat dibalik - bahkan dalam kasus . Untuk regresi Ridge variasi kecil dalam data tidak memiliki lagi efek yang sangat tidak stabil yang dimilikinya terhadap inversi matriks.di+λ≥λ≥0p≫nX
Stabilitas numerik terkait dengan penyusutan menjadi nol karena keduanya merupakan konsekuensi dari menambahkan konstanta positif ke nilai eigen: itu membuatnya lebih stabil karena gangguan kecil dalam tidak mengubah invers terlalu banyak; itu menyusut mendekati karena sekarang istilah dikalikan dengan yang lebih dekat ke nol daripada solusi OLS dengan nilai eigen terbalik .X0V−1X′y1/(di+λ)1/d
Jawaban ini dengan memuaskan menjawab bagian aljabar dari pertanyaan saya! Bersama dengan Glen_b menjawab itu membuat penjelasan lengkap tentang masalah ini.
Heisenberg
17
Demonstrasi @ Glen_b luar biasa. Saya hanya akan menambahkan bahwa selain dari penyebab yang tepat dari masalah dan deskripsi tentang bagaimana regresi dihukum kuadrat bekerja, ada garis bawah bahwa hukuman memiliki efek bersih menyusut koefisien selain intersep ke nol. Ini memberikan solusi langsung untuk masalah overfitting yang melekat pada sebagian besar analisis regresi ketika ukuran sampel tidak besar dalam kaitannya dengan jumlah estimasi parameter. Hampir semua hukuman terhadap nol untuk non-penyadapan akan meningkatkan akurasi prediksi dibandingkan model yang tidak dihukum.
Memberi +1 pada ilustrasi Glen_b dan komentar statistik tentang estimator Ridge. Saya hanya ingin menambahkan pov matematika murni (aljabar linier) pada regresi Ridge yang menjawab pertanyaan OP 1) dan 2).
Catatan pertama bahwa adalah matriks semidefinit positif simetris - kali matriks kovarian sampel. Karena itu ia memiliki dekomposisi eigenX′X p×p n
Sekarang karena inversi matriks sesuai dengan inversi dari nilai eigen, penaksir OLS membutuhkan (perhatikan bahwa ). Jelas ini hanya berfungsi jika semua nilai eigen benar-benar lebih besar dari nol, . Untuk ini tidak mungkin; untuk secara umum benar - ini kita biasanya berkaitan dengan multikolinieritas .(X′X)−1=VD−1V′ V′=V−1 di>0 p≫n n≫p
Sebagai ahli statistik, kami juga ingin tahu bagaimana gangguan kecil dalam data mengubah perkiraan. Jelas bahwa perubahan kecil dalam setiap mengarah ke variasi besar dalam jika sangat kecil.X di 1/di di
Jadi apa yang dilakukan regresi Ridge adalah memindahkan semua nilai eigen lebih jauh dari nol
Stabilitas numerik terkait dengan penyusutan menjadi nol karena keduanya merupakan konsekuensi dari menambahkan konstanta positif ke nilai eigen: itu membuatnya lebih stabil karena gangguan kecil dalam tidak mengubah invers terlalu banyak; itu menyusut mendekati karena sekarang istilah dikalikan dengan yang lebih dekat ke nol daripada solusi OLS dengan nilai eigen terbalik .X 0 V−1X′y 1/(di+λ) 1/d
sumber
Demonstrasi @ Glen_b luar biasa. Saya hanya akan menambahkan bahwa selain dari penyebab yang tepat dari masalah dan deskripsi tentang bagaimana regresi dihukum kuadrat bekerja, ada garis bawah bahwa hukuman memiliki efek bersih menyusut koefisien selain intersep ke nol. Ini memberikan solusi langsung untuk masalah overfitting yang melekat pada sebagian besar analisis regresi ketika ukuran sampel tidak besar dalam kaitannya dengan jumlah estimasi parameter. Hampir semua hukuman terhadap nol untuk non-penyadapan akan meningkatkan akurasi prediksi dibandingkan model yang tidak dihukum.
sumber