Batas estimator regresi ridge regresi “unit-variance” ketika

21

Pertimbangkan regresi ridge dengan kendala tambahan mengharuskan y memiliki satuan jumlah kuadrat (ekuivalen, satuan varians); jika diperlukan, orang dapat berasumsi bahwa y memiliki satuan jumlah kuadrat juga:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Berapa batas β^λ ketika λ ?


Berikut adalah beberapa pernyataan yang saya yakini benar:

  1. Ketika λ=0 , ada solusi eksplisit yang rapi: ambil penaksir OLS β^0=(XX)1Xy dan menormalkannya untuk memenuhi batasan (orang dapat melihat ini dengan menambahkan pengali Lagrange dan membedakan):

    β^0=β^0/Xβ^0.
  2. Secara umum, solusinya adalah

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Saya tidak melihat solusi formulir tertutup ketika λ>0 . Tampaknya solusinya setara dengan estimator RR biasa dengan beberapa λ dinormalisasi untuk memenuhi kendala, tapi saya tidak melihat rumus tertutup untuk λ .
  3. Saat λ , penduga RR biasa

    β^λ=(XX+λI)1Xy
    jelas menyatu dengan nol, tetapi arahnya β^λ/β^λkonvergen ke arah Xy , alias komponen partial squares (kuadrat) parsial pertama.

Pernyataan (2) dan (3) bersama-sama membuat saya berpikir bahwa mungkin β^λ juga menyatu dengan Xy , tetapi saya tidak yakin apakah ini benar dan saya belum berhasil meyakinkan diri sendiri.

amuba kata Reinstate Monica
sumber

Jawaban:

17

Penafsiran geometris

Pengukur yang dijelaskan dalam pertanyaan adalah ekuivalen pengali Lagrange dari masalah pengoptimalan berikut:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

yang dapat dilihat, secara geometris, sebagai menemukan ellipsoid terkecil yang menyentuh persimpangan bola dan ellipsoidf(β)=RSS g(β)=th(β)=1


Perbandingan dengan tampilan regresi ridge standar

Dalam hal tampilan geometris, ini mengubah tampilan lama (untuk regresi ridge standar) dari titik di mana sebuah bola (kesalahan) dan bola ( ) menyentuhβ2=t . Ke tampilan baru di mana kita mencari titik di mana spheroid (kesalahan) menyentuh kurva (norma beta dibatasi oleh )Xβ2=1 . Bola satu (biru pada gambar kiri) berubah menjadi angka dimensi yang lebih rendah karena persimpangan dengan batasan .Xβ=1

Dalam kasus dua dimensi ini mudah dilihat.

tampilan geometris

Ketika kita menyetel parameter maka kita mengubah panjang relatif bola biru / merah atau ukuran relatif dari dan (Dalam teori pengganda Lagrangian mungkin ada cara yang rapi untuk secara formal dan persis menggambarkan bahwa ini berarti bahwa untuk setiap sebagai fungsi , atau terbalik, adalah fungsi yang monoton. Tapi saya bayangkan Anda dapat melihat secara intuitif bahwa jumlah residu kuadrat hanya meningkat ketika kita mengurangi .)tf(β)g(β) tλ||β||

Solusi untuk adalah ketika Anda berdebat tentang garis antara 0 danβλλ=0βLS

Solusi untuk adalah (memang seperti yang Anda komentari) di pemuatan komponen utama pertama. Ini adalah titik di mana adalah yang terkecil untuk . Ini adalah titik di mana lingkaran menyentuh ellipse dalam satu titik.βλλβ2βX2=1β2=t|Xβ|=1

Dalam tampilan 2-d ini, tepi persimpangan bola dan spheroid adalah poin. Dalam banyak dimensi ini adalah kurvaβ2=tβX2=1

(Saya membayangkan pertama bahwa kurva ini akan menjadi elips tetapi lebih rumit. Anda dapat membayangkan ellipsoid berpotongan dengan bola karena beberapa semacam ellipsoid frustum tetapi dengan tepian yang bukan elips sederhana)Xβ2=1β2t


Mengenai batasλ

Pada awalnya (suntingan sebelumnya) saya menulis bahwa akan ada beberapa pembatasan atas yang semua solusinya sama (dan mereka berada di titik ). Tapi ini bukan masalahnyaλlimβ

Pertimbangkan optimasi sebagai algoritma LARS atau gradient descent. Jika untuk setiap titik ada arah di mana kita dapat mengubah sehingga hukuman istilah meningkat kurang dari istilah SSR berkurang maka Anda tidak dalam minimum .ββ|β|2|yXβ|2

  • Dalam regresi punggungan normal Anda memiliki kemiringan nol (dalam semua arah) untuk pada titik . Jadi untuk semua yang terbatas solusinya tidak dapat (karena langkah sangat kecil dapat dilakukan untuk mengurangi jumlah residu kuadrat tanpa meningkatkan penalti).|β|2β=0λβ=0
  • Untuk LASSO ini tidak sama karena: hukumannya adalah (jadi tidak kuadratik dengan kemiringan nol). Karena itu LASSO akan memiliki beberapa nilai pembatas atas yang semua solusinya nol karena istilah penalti (dikalikan dengan ) akan meningkat lebih dari jumlah residu kuadrat berkurang.|β|1λlimλ
  • Untuk punggungan terbatas Anda mendapatkan sama dengan regresi punggungan biasa. Jika Anda mengubah mulai dari maka perubahan ini akan menjadi tegak lurus dengan ( adalah tegak lurus terhadap permukaan elips ) dan dapat diubah dengan langkah sangat kecil tanpa mengubah jangka waktu penalti tetapi mengurangi jumlah residu kuadrat. Jadi untuk setiap terbatas titik tidak bisa menjadi solusi.ββββ|Xβ|=1βλβ

Catatan lebih lanjut mengenai batasλ

Batas regresi punggungan biasa untuk hingga tak terbatas sesuai dengan titik berbeda dalam regresi punggungan terbatas. Batas 'lama' ini sesuai dengan titik di mana sama dengan -1. Kemudian turunan dari fungsi Lagrange dalam masalah dinormalisasiλμ

2(1+μ)XTXβ+2XTy+2λβ
sesuai dengan solusi untuk turunan dari fungsi Lagrange dalam masalah standar

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Ditulis oleh StackExchangeStrike

Sextus Empiricus
sumber
+1. Terima kasih banyak, ini sangat membantu! Saya perlu waktu untuk memikirkannya.
Amuba mengatakan Reinstate Monica
Layak untuk ditunjukkan bahwa ellipsoid merah dan hitam memiliki bentuk yang sama: inilah mengapa titik di mana mereka menyentuh terletak pada garis yang menghubungkan pusat-pusat mereka. Bukti grafis bagus dari poin # 1 dalam pertanyaan saya.
Amuba mengatakan Reinstate Monica
Saya mencoba untuk memahami di mana gambar Anda adalah beta yang sesuai dengan penaksir ridge dengan lambda tak terbatas, dinormalisasi untuk berbaring di elips hitam. Saya pikir itu berada di suatu tempat antara dan (menggunakan notasi saya) - dua titik yang ditandai dengan lingkaran terbuka hitam pada gambar Anda. Jadi jika kita melakukan regresi ridge dan menormalkan solusi dan meningkatkan lambda dari 0 hingga tak terbatas, mungkin membawa kita pada jalur yang sama, tetapi tidak sepenuhnya sampai PC1. Alih-alih, memasukkan batasan secara eksplisit, membuat solusi berjalan hingga PC1. β X β = 1β0βXβ=1
Amoeba berkata Reinstate Monica
+5 (Saya memulai hadiah yang dengan senang hati akan saya berikan atas jawaban Anda). Saya juga telah memposting jawaban saya sendiri karena saya melakukan beberapa derivasi aljabar dan terlalu banyak untuk menambah pertanyaan. Saya tidak yakin dengan kesimpulan Anda bahwa akan ada beberapa yang terbatas setelah itu solusinya tidak akan berubah lagi dan akan diberikan oleh PC1. Saya tidak melihatnya secara aljabar, dan saya tidak begitu mengerti argumen Anda mengapa itu harus ada. Mari kita coba mencari tahu. λlim
Amoeba berkata Reinstate Monica
@amoeba, Anda benar tentang terbatas tidak ada. Saya berdebat terlalu intuitif dan melompat dengan cepat dari kondisi tertentu untuk regresi ridge reguler ke regresi ridge dibatasi. RR biasa memiliki kemiringan nol (dalam semua arah) untuk pada titik . Saya pikir (karena ) Anda tidak mendapatkan ini dengan regresi terbatas. Namun karena terbatas pada ellipsoid Anda tidak dapat 'memindahkan' ke semua arah. | β | 2 β = 0λlim|β|2β=0β | X β | = 1 ββ0β|Xβ|=1β
Sextus Empiricus
10

Ini adalah pasangan aljabar dari jawaban geometris @ Martijn yang indah.

Pertama-tama, batas ketika sangat mudah diperoleh: dalam batas, istilah pertama dalam fungsi kerugian menjadi diabaikan dan dengan demikian dapat diabaikan. Masalah optimisasi menjadi yang merupakan komponen utama pertama dariλ lim λ β * λ = β * = a r g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(diskalakan dengan tepat). Ini menjawab pertanyaan.

Sekarang mari kita pertimbangkan solusi untuk setiap nilai yang saya maksudkan pada poin # 2 dari pertanyaan saya. Menambahkan ke fungsi kerugian, pengali Lagrange dan membedakan, kita memperolehμ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Bagaimana solusi ini berperilaku ketika tumbuh dari nol hingga tak terbatas?λ

  • Ketika , kami memperoleh versi skala dari solusi OLS:β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Untuk nilai positif tapi kecil , solusinya adalah versi skala beberapa penaksir punggungan:ß * λ ~ ß λ * .λ

    β^λβ^λ.
  • Ketika, nilai diperlukan untuk memenuhi batasan adalah . Ini berarti bahwa solusinya adalah versi skala dari komponen PLS pertama (yang berarti bahwa dari penaksir ridge yang sesuai adalah ):( 1 + μ ) 0 λ *ß * X Xy ~ Xy .λ=XXy(1+μ)0λ

    β^XXyXy.
  • Ketika menjadi lebih besar dari itu, istilah menjadi negatif. Mulai sekarang, solusinya adalah versi skala dari penaksir pseudo-bubungan dengan parameter regularisasi negatif ( bubungan negatif ). Dalam hal arah, kita sekarang melewati regresi ridge dengan lambda tak terbatas.( 1 + μ )λ(1+μ)

  • Ketika , istilah akan menjadi nol (atau berbeda dengan infinity) kecuali mana adalah nilai singular terbesar dari . Ini akan membuat terbatas dan sebanding dengan sumbu utama pertama . Kita perlu mengatur untuk memenuhi batasan tersebut. Dengan demikian, kami memperolehλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

Secara keseluruhan, kami melihat bahwa masalah minimisasi terbatas ini mencakup versi unit-varians dari OLS, RR, PLS, dan PCA pada spektrum berikut:

OLSRRPLSnegative RRPCA

Ini tampaknya setara dengan kerangka kerja kemometrik yang tidak jelas (?) Yang disebut "regresi kontinum" (lihat https://scholar.google.de/scholar?q="continuum+regress " , khususnya Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, dll.) Yang memungkinkan penyatuan yang sama dengan memaksimalkan kriteria ad hocIni jelas menghasilkan OLS diskala ketika , PLS saat , PCA saat , dan dapat ditunjukkan menghasilkan RR skala untuk

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , lihat Sundberg 1993.

Meskipun memiliki sedikit pengalaman dengan RR / PLS / PCA / etc, saya harus mengakui bahwa saya belum pernah mendengar tentang "regresi kontinum" sebelumnya. Saya juga harus mengatakan bahwa saya tidak suka istilah ini.


Skema yang saya lakukan berdasarkan pada @ Martijn:

Regresi punggungan unit-variance

Pembaruan: Gambar diperbarui dengan jalur punggungan negatif, terima kasih banyak kepada @Martijn karena menyarankan bagaimana tampilannya. Lihat jawaban saya dalam Memahami regresi ridge negatif untuk lebih jelasnya.

amuba kata Reinstate Monica
sumber
"Regresi berkelanjutan" tampaknya menjadi salah satu kategori teknik mengejutkan yang luas yang bertujuan menyatukan PLS dan PCA dalam kerangka kerja umum. Saya belum pernah mendengar tentang hal itu, secara kebetulan, sampai meneliti punggung negatif (saya memberikan tautan ke Bjorkstron & Sundberg, 1999, makalah di komentar pertama pertanyaan punggung negatif yang Anda tautkan), meskipun tampaknya agak banyak dibahas dalam literatur kemometri. Pasti ada beberapa alasan historis mengapa ia tampaknya berkembang dalam isolasi dari bidang statistik lain. (1/3)
Ryan Simmons
Satu makalah yang mungkin ingin Anda baca adalah de Jong et al. (2001) . Formulasi "PLS kanonik" mereka tampaknya sekilas setara dengan milik Anda, meskipun saya akui saya belum membandingkan matematika secara seksama (mereka juga memberikan ulasan tentang beberapa generalisasi PLS-PCA lain dalam nada yang sama). Tetapi mungkin wawasan untuk melihat bagaimana mereka telah menjelaskan masalahnya. (2/3)
Ryan Simmons
Jika tautan itu mati, kutipan lengkapnya adalah: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Kuadrat terkecil parsial Canonical dan regresi daya kontinum." Jurnal Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons
1
ah, ok, lalu dan buka tak terbatas tetapi rasio mereka tetap . Dalam kasus apa pun, jalur regresi ridge negatif harus berada di sektor (negatif) antara vektor PLS dan PCA sedemikian rupa sehingga proyeksi mereka ke elipsadalah antara titik-titik PLS dan PCA. (norma menuju ke infinity masuk akal ketika pergi ke infinity juga, sehingga jalan berlanjut ke kanan bawah, awalnya bersinggungan dengan, negatif, PLS dan akhirnya ke PCA) 1 + μ ± s 2 m a x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
Sextus Empiricus
1
Itu akan menambah visualisasi. Saya membayangkan tiga titik jalur RR saat ini (di mana lingkaran dan sentuhan ellipsoid) berlanjut ke bawah ke kanan dan akhirnya, pada infinity, lingkaran dan ellipsoid harus 'sentuhan' di arah dari para tempat di mana lingkaran menyentuh ellipsoid | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus