Interpretasi geometris dari regresi linier yang dihukum

26

Saya tahu bahwa regresi linier dapat dianggap sebagai "garis yang secara vertikal paling dekat dengan semua poin" :

masukkan deskripsi gambar di sini

Tetapi ada cara lain untuk melihatnya, dengan memvisualisasikan ruang kolom, sebagai "proyeksi ke ruang yang terbentang oleh kolom dari matriks koefisien" :

masukkan deskripsi gambar di sini

Pertanyaan saya adalah: dalam dua interpretasi ini, apa yang terjadi ketika kita menggunakan regresi linier yang dihukum, seperti regresi ridge dan LASSO ? Apa yang terjadi dengan garis dalam interpretasi pertama? Dan apa yang terjadi dengan proyeksi dalam interpretasi kedua?

UPDATE: @JohnSmith dalam komentar memunculkan fakta bahwa penalti terjadi di ruang koefisien. Apakah ada interpretasi di ruang ini juga?

Lucas Reis
sumber
1
Saya tidak yakin apakah bisa menghasilkan interpretasi seperti itu. Hanya karena apa yang Anda berikan adalah gambar dalam ruang asli fitur dan respons. Dan regresi yang dihukum melibatkan ruang koefisien, yang sangat berbeda.
Dmitry Laptev
"garis vertikal paling dekat ke semua titik"? Orang biasanya mengambil jumlah kotak - lihat gambar bagus di Wikipedia Coefficient_of_determination . Jumlah jarak vertikal adalah norma L1, yang kurang sensitif terhadap outlier tetapi jauh lebih jarang.
denis

Jawaban:

21

Maaf atas keterampilan melukis saya, saya akan mencoba memberi Anda intuisi berikut.

f(β)ββ1β2

Ada minimum fungsi ini, di tengah lingkaran merah. Dan minimum ini memberi kita solusi tanpa sanksi.

g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

f(β)+g(β)

LASSO and Ridge regression

Hukuman yang lebih besar, kontur biru "lebih sempit" yang kita dapatkan, dan kemudian plot bertemu satu sama lain di titik yang lebih dekat ke nol. Vise-versa: semakin kecil penalti, kontur membesar, dan perpotongan plot biru dan merah semakin dekat ke pusat lingkaran merah (solusi non-penalti).

β1=0β2=0

Itu sebabnya LASSO memberi kami solusi jarang, membuat beberapa parameter sama persis 0

Harapan itu akan menjelaskan beberapa intuisi tentang bagaimana regresi dihukum bekerja di ruang parameter.

Dmitry Laptev
sumber
Saya pikir memulai dengan gambar klasik, seperti yang telah Anda lakukan, adalah awal yang baik. Untuk benar-benar memahami ini, saya pikir akan sangat membantu untuk menggambarkan bagaimana kontur berhubungan dengan masalah. Secara khusus, kita tahu dalam kedua kasus, bahwa semakin kecil kita melakukan penalti, semakin dekat kita dengan solusi OLS, dan semakin besar hasilnya, semakin dekat dengan model intersep murni yang akan kita dapatkan. Satu pertanyaan untuk ditanyakan adalah: Bagaimana ini memanifestasikan dirinya dalam sosok Anda?
kardinal
Ngomong-ngomong, keterampilan melukismu tampak baik-baik saja.
kardinal
Terima kasih atas komentar Anda! Semuanya secara intuitif sederhana di sini: penalti yang lebih besar, kontur biru "lebih sempit" yang kita dapatkan (dan titik dua plot bertemu mendekati nol). Vise-versa: semakin kecil penalti: semakin dekat ke pusat lingkaran merah, plot akan bertemu (OLS).
Dmitry Laptev
2
g(x)λ
1
Terima kasih atas ilustrasinya yang jelas. Saya telah membaca di tempat lain bahwa jumlah minimum dari tujuan terjadi di mana mereka bersinggungan satu sama lain. Saya mendapatkan bahwa jika f (\ beta) '= -g (\ beta)' itu berarti turunan dari penjumlahannya adalah nol yang merupakan persyaratan untuk sebuah ekstrem. Apakah ini yang dimaksud di sini dengan "ketika dua plot kontur saling bertemu"?
odedbd
3

Intuisi yang saya miliki adalah sebagai berikut: Dalam kasus kuadrat-terkecil, matriks topi adalah proyeksi ortogonal sehingga idempoten. Dalam kasus penalti, matriks topi tidak lagi idempoten. Sebenarnya, menerapkannya berkali-kali, akan mengecilkan koefisien ke titik asal. Di sisi lain, koefisien masih harus terletak pada rentang prediktor, sehingga masih merupakan proyeksi, meskipun tidak ortogonal. Besarnya faktor penghukuman dan jenis norma mengontrol jarak dan arah penyusutan ke arah asal.

JohnRos
sumber
1
Saya tidak dapat melihat mengapa itu tidak idempoten: jika saya memproyeksikan vektor di ruang (bahkan jika itu bukan proyeksi ortogonal), dan saya meletakkan kendala dalam koefisien, mengapa proyeksi baru dari vektor yang diproyeksikan ini akan berbeda dari yang sebelumnya satu?
Lucas Reis
1
Secara intuitif: Katakanlah Anda meminimalkan jumlah kotak yang terkena penalti untuk kedua kalinya. Jumlah kuadrat pada minimisasi kedua lebih kecil dari jumlah kuadrat minimalisasi pertama. Kepentingan relatif dari norma koefisien yang dihukum akan meningkat, yaitu, ada lebih banyak yang dapat diperoleh dengan menyusutkan koefisien lebih banyak lagi. Regresi punggungan adalah contoh yang baik di mana Anda memiliki formulir tertutup yang bagus untuk matriks topi dan Anda dapat langsung memeriksa apakah itu idempoten.
JohnRos