Ridge dan LASSO diberi struktur kovarians?

11

Setelah membaca Bab 3 dalam Elemen Pembelajaran Statistik (Hastie, Tibshrani & Friedman), saya bertanya-tanya apakah mungkin untuk menerapkan metode penyusutan terkenal yang dikutip pada judul pertanyaan ini diberikan struktur kovarian, yaitu, meminimalkan (mungkin lebih umum) ) kuantitas

(yXβ)TV1(yXβ)+λf(β),   (1)

alih-alih yang biasa Ini terutama dimotivasi oleh fakta bahwa dalam aplikasi khusus saya, kami memiliki varian yang berbeda untuk (dan kadang-kadang bahkan struktur kovarian yang dapat diperkirakan) dan saya ingin memasukkan mereka dalam regresi. Saya melakukannya untuk regresi ridge: setidaknya dengan implementasi saya di Python / C, saya melihat bahwa ada perbedaan penting di jalur yang dilacak oleh koefisien, yang juga terkenal ketika membandingkan kurva cross-validasi dalam kedua kasus.

(yXβ)(yXβ)+λf(β).            (2)
y

Saya sekarang bersiap untuk mencoba mengimplementasikan LASSO melalui Least Angle Regression, tetapi untuk melakukannya saya harus membuktikan dulu bahwa semua properti bagusnya masih valid ketika meminimalkan bukan . Sejauh ini, saya belum melihat pekerjaan yang benar-benar melakukan semua ini, tetapi beberapa waktu yang lalu saya juga membaca kutipan yang mengatakan sesuatu seperti " mereka yang tidak tahu statistik ditakdirkan untuk menemukan kembali itu " (oleh Brad Efron, mungkin? ), jadi itu sebabnya saya bertanya di sini dulu (mengingat bahwa saya adalah pendatang baru relatif terhadap literatur statistik): apakah ini sudah dilakukan di suatu tempat untuk model ini? Apakah ini diimplementasikan dalam R dalam beberapa cara? (termasuk solusi dan implementasi punggungan dengan meminimalkan alih-alih(1)(2)(1)(2), yang merupakan apa yang diterapkan dalam kode lm.ridge di R)?

Terima kasih sebelumnya atas jawaban Anda!

Néstor
sumber
Jawaban sebelumnya juga dilaporkan dengan perincian lebih lanjut di en.wikipedia.org/wiki/Generalized_least_squares Solusi ini dapat diimplementasikan menggunakan pendekatan Feasible Generalized Least Square (FGLS)
Nicola Jean

Jawaban:

13

Jika kita mengetahui dekomposisi Cholesky , katakan, maka dan kita dapat menggunakan algoritma standar (dengan fungsi hukuman apa pun yang lebih disukai) dengan mengganti respons dengan vektorV1=LTL

(yXβ)TV1(yXβ)=(LyLXβ)T(LyLXβ)
LyLX
NRH
sumber