Mengapa regresi ridge disebut "ridge", mengapa itu diperlukan, dan apa yang terjadi ketika pergi hingga tak terbatas?

71

Perkiraan koefisien regresi punggungan adalah nilai yang meminimalkanβ^R

RSS+λj=1pβj2.

Pertanyaan saya adalah:

  1. Jika , maka kita melihat bahwa ekspresi di atas berkurang ke RSS yang biasa. Bagaimana jika ? Saya tidak mengerti penjelasan buku teks tentang perilaku koefisien.λ=0λ

  2. Untuk membantu memahami konsep di balik istilah tertentu, mengapa istilah itu disebut Regresi RIDGE? (Mengapa ridge?) Dan apa yang bisa salah dengan regresi biasa / umum bahwa ada kebutuhan untuk memperkenalkan konsep baru yang disebut regresi ridge?

Wawasan Anda akan luar biasa.

cgo
sumber

Jawaban:

89

Karena Anda meminta wawasan , saya akan mengambil pendekatan yang cukup intuitif daripada taktik yang lebih matematis:

  1. Mengikuti konsep dalam jawaban saya di sini , kita dapat merumuskan regresi ridge sebagai regresi dengan data dummy dengan menambahkan pengamatan (dalam formulasi Anda), di mana , dan untuk . Jika Anda menulis RSS baru untuk kumpulan data yang diperluas ini, Anda akan melihat pengamatan tambahan yang masing-masing menambahkan istilah dalam bentuk , jadi RSS baru adalah - dan meminimalkan RSS pada set data baru yang diperluas ini sama dengan meminimalkan kriteria regresi ridge.pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    Jadi apa yang bisa kita lihat di sini? Ketika meningkat, tambahan rows masing-masing memiliki satu komponen yang meningkat, dan juga pengaruh titik-titik ini juga meningkat. Mereka menarik hyperplane yang dipasang ke diri mereka sendiri. Kemudian ketika dan komponen terkait dari pergi hingga tak terbatas, semua koefisien yang terlibat "rata" menjadi .λxλx0

    Yaitu, seperti , penalti akan mendominasi minimalisasi, sehingga s akan menjadi nol. Jika intersep tidak dihukum (kasus biasa) maka model semakin menyusut ke arah rata-rata respons.λβ

  2. Saya akan memberikan intuisi mengapa kita berbicara tentang punggung pertama (yang juga menyarankan mengapa diperlukan), kemudian menangani sedikit sejarah. Yang pertama diadaptasi dari jawaban saya di sini :

    Jika ada multikolinieritas, Anda mendapatkan "punggungan" dalam fungsi kemungkinan (kemungkinan adalah fungsi dari 's). Ini pada gilirannya menghasilkan "lembah" panjang di RSS (karena RSS = ).β2logL

    Ridge regresi "perbaikan" punggungan - ia menambahkan penalti yang mengubah punggungan menjadi puncak yang bagus di ruang kemungkinan, ekuivalen depresi bagus di kriteria kita meminimalkan:

    ridge di LS berubah menjadi puncak dalam regresi ridge
    [ Gambar lebih jelas ]

    Kisah sebenarnya di balik nama itu sedikit lebih rumit. Pada tahun 1959 AE Hoerl [1] memperkenalkan analisis ridge untuk metodologi permukaan respon, dan segera [2] menjadi diadaptasi untuk berurusan dengan multikolinieritas dalam regresi ('regresi ridge'). Lihat misalnya, diskusi oleh RW Hoerl dalam [3], di mana ia menjelaskan penggunaan Hoerl (AE bukan RW) HoL dari plot kontur permukaan respons * dalam identifikasi ke mana harus menuju untuk menemukan optima lokal (di mana seseorang mengepalai punggung bukit'). Dalam masalah yang tidak dikondisikan, masalah punggungan yang sangat panjang muncul, dan wawasan dan metodologi dari analisis punggungan disesuaikan dengan masalah terkait dengan kemungkinan / RSS dalam regresi, menghasilkan regresi punggungan.

* contoh plot kontur permukaan respons (dalam hal respons kuadrat) dapat dilihat di sini (Gambar 3.9-3.12).

Yaitu, "ridge" sebenarnya merujuk pada karakteristik fungsi yang kami coba optimalkan, daripada menambahkan "ridge" (+ ve diagonal) ke matriks (jadi sementara regresi ridge memang menambah diagonal, itu bukan alasan kami menyebutnya regresi 'ridge').XTX

Untuk beberapa informasi tambahan tentang perlunya regresi ridge, lihat tautan pertama di bawah daftar item 2. di atas.


Referensi:

[1]: Hoerl, AE (1959). Solusi optimal dari banyak persamaan variabel. Kemajuan Teknik Kimia , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Aplikasi analisis ridge untuk masalah regresi. Kemajuan Teknik Kimia , 58 (3) 54-59.

[3] Hoerl, RW (1985). Analisis Ridge 25 Tahun Kemudian. Ahli Statistik Amerika , 39 (3), 186-192

Glen_b
sumber
2
Ini sangat membantu. Ya, ketika saya meminta wawasan, saya mencari intuisi. Tentu saja matematika itu penting, tetapi saya juga mencari penjelasan konseptual, karena ada beberapa bagian ketika matematika tepat di luar saya. Terima kasih lagi.
cgo
Mengapa Anda memiliki kata "berbobot" di poin 1?
Amuba mengatakan Reinstate Monica
1
Itu pertanyaan yang bagus; tidak perlu dibobot kecuali jika regresi aslinya dibobot. Saya telah menghapus kata sifat. Mungkin juga untuk menuliskannya sebagai regresi berbobot (yang jika Anda sudah melakukan regresi tertimbang mungkin akan sedikit lebih mudah untuk ditangani).
Glen_b
36
  1. Jika maka hukuman kami akan menjadi tak terbatas untuk selain , jadi itulah yang akan kami dapatkan. Tidak ada vektor lain yang akan memberi kita nilai terbatas dari fungsi tujuan.λββ=0

(Pembaruan: Silakan lihat jawaban Glen_b. Ini bukan alasan historis yang benar!)

  1. Ini berasal dari solusi regresi ridge dalam notasi matriks. Solusinya ternyata Istilah menambahkan "ridge" ke diagonal utama dan menjamin bahwa matriks yang dihasilkan tidak dapat dibalik. Ini berarti, tidak seperti OLS, kami akan selalu mendapatkan solusi.
    β^=(XTX+λI)1XTY.
    λI

Regresi Ridge berguna ketika prediktor berkorelasi. Dalam hal ini OLS dapat memberikan hasil yang liar dengan koefisien yang sangat besar, tetapi jika mereka dihukum kita bisa mendapatkan hasil yang jauh lebih masuk akal. Secara umum, keuntungan besar untuk meningkatkan regresi adalah bahwa solusinya selalu ada, seperti yang disebutkan di atas. Ini berlaku bahkan untuk kasus di mana , di mana OLS tidak dapat memberikan solusi (unik).n<p

Regresi Ridge juga merupakan hasil ketika prior normal diletakkan pada vektor .β

Inilah Bayesian mengambil regresi ridge: Misalkan prioritas kami untuk adalah . Maka karena [dengan asumsi] kita memiliki ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

Mari kita temukan mode posterior (kita bisa melihat mean posterior atau hal-hal lain juga, tetapi untuk ini mari kita lihat mode, yaitu nilai yang paling mungkin). Ini artinya kita menginginkan yang setara dengan

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
karena benar-benar monoton dan ini pada gilirannya setara dengan log
minβRp||yXβ||2+λβTβ

yang seharusnya terlihat cukup akrab.

Jadi kita melihat bahwa jika kita meletakkan prior normal dengan rata-rata 0 dan varians pada vektor kami , nilai yang memaksimalkan posterior adalah estimator ridge. Perhatikan bahwa ini memperlakukan lebih sebagai parameter frequentist karena tidak ada sebelumnya tetapi tidak diketahui, jadi ini tidak sepenuhnya Bayesian.σ2λββσ2

Sunting: Anda bertanya tentang case di mana . Kita tahu bahwa hyperplane di didefinisikan oleh titik tepat . Jika kita menjalankan regresi linier dan maka kita menginterpolasi data kita dengan tepat dan mendapatkan . Ini adalah solusi, tetapi ini mengerikan: kinerja kami pada data masa depan kemungkinan besar akan sangat buruk. Sekarang anggaplah : tidak ada lagi hyperplane unik yang ditentukan oleh titik-titik ini. Kita dapat memuat banyak hyperplanes, masing-masing dengan 0 jumlah kuadrat residual.n<pRppn=p||yXβ^||2=0n<p

Contoh yang sangat sederhana: misalkan . Maka kita hanya akan mendapatkan garis antara dua poin ini. Sekarang anggaplah tetapi . Bayangkan sebuah pesawat dengan dua titik ini di dalamnya. Kita dapat memutar pesawat ini tanpa mengubah fakta bahwa dua titik ini ada di dalamnya, jadi ada banyak sekali model dengan nilai sempurna dari fungsi tujuan kita, sehingga bahkan di luar masalah overfitting, tidak jelas mana yang harus dipilih.n=p=2n=2p=3

Sebagai komentar terakhir (sesuai saran per gung), LASSO (menggunakan penalti ) biasanya digunakan untuk masalah dimensi tinggi karena secara otomatis melakukan pemilihan variabel (menetapkan beberapa ). Cukup menyenangkan, ternyata LASSO setara dengan menemukan mode posterior ketika menggunakan eksponensial ganda (alias Laplace) sebelum pada vektor . LASSO juga memiliki beberapa batasan, seperti menjenuhkan pada prediktor dan tidak harus menangani kelompok-kelompok prediktor berkorelasi dengan cara yang ideal, sehingga jaring elastis (kombinasi cembung dari hukuman dan ) dapat ditanggung.L1βj=0βnL1L2

jld
sumber
1
(+1) Jawaban Anda dapat ditingkatkan dengan menguraikan hubungan antara Bayesian dan regresi ridge.
Pasang kembali Monica
1
Akan lakukan - mengetiknya sekarang.
jld
4
OLS tidak dapat menemukan solusi unik ketika karena matriks desain tidak peringkat penuh. Ini adalah pertanyaan yang sangat umum; silakan cari arsip untuk deskripsi mengapa ini tidak berhasil. n<p
Pasang kembali Monica
2
@cgo: penjelasan dan saran pengguna777 untuk mencari adalah yang baik, tetapi demi kelengkapan saya juga telah menambahkan (mudah-mudahan) penjelasan intuitif.
JLD
5
+1, jawaban yang bagus. Re n <p, Anda mungkin menyebutkan bahwa LASSO biasanya digunakan dalam kasus ini & terkait erat dengan RR.
gung - Reinstate Monica