Hubungan LASSO antara dan

10

Pemahaman saya tentang regresi LASSO adalah bahwa koefisien regresi dipilih untuk menyelesaikan masalah minimalisasi:

minβyXβ22 s.t.β1t

Dalam praktiknya ini dilakukan dengan menggunakan pengali Lagrange, membuat masalah untuk dipecahkan

minβyXβ22+λβ1

Apa hubungan antara λ dan t ? Wikipedia tidak membantu hanya menyatakan bahwa "tergantung data".

Kenapa saya peduli? Pertama karena keingintahuan intelektual. Tetapi saya juga khawatir tentang konsekuensi untuk memilih λ dengan cross-validation.

Secara khusus, jika saya melakukan validasi silang n-lipat, saya memasangkan n model yang berbeda dengan n partisi berbeda dari data pelatihan saya. Saya kemudian membandingkan akurasi masing-masing model pada data yang tidak digunakan untuk \ lambda yang diberikan λ. Tetapi \ lambda yang sama λmenyiratkan kendala yang berbeda ( t ) untuk himpunan bagian data yang berbeda (yaitu, t=f(λ) adalah "data dependen").

Bukankah masalah validasi silang saya benar-benar ingin menyelesaikan untuk menemukan t yang memberikan trade-off bias-akurasi terbaik?

Saya bisa mendapatkan gambaran kasar tentang ukuran efek ini dalam praktik dengan menghitung untuk setiap pemisahan validasi silang dan dan melihat distribusi yang dihasilkan. Dalam beberapa kasus, kendala tersirat ( ) dapat bervariasi diam secara substansial di seluruh subset validasi silang saya. Di mana secara substansial yang saya maksud adalah koefisien variasi dalam .β1λtt>>0

ConstantAmateur
sumber
5
Upvoting untuk membatalkan downvote yang tidak dijelaskan. Pertanyaannya jauh di luar keahlian saya tetapi tampaknya dirumuskan dengan wajar.
mkt - Reinstate Monica

Jawaban:

2

Ini adalah solusi standar untuk regresi ridge :

β=(XX+λI)1Xy

Kita juga tahu bahwa , jadi itu pasti benarβ=t

(XX+λI)1Xy=t
.

yang tidak mudah dipecahkan untuk .λ

Taruhan terbaik Anda adalah terus melakukan apa yang Anda lakukan: menghitung pada sub-sampel data yang sama di beberapa nilai .tλ

shadowtalker
sumber