Asumsi LASSO

18

Dalam skenario regresi LASSO di mana

y=Xβ+ϵ ,

dan perkiraan LASSO diberikan oleh masalah optimisasi berikut

minβ||yXβ||+τ||β||1

Apakah ada asumsi distribusi tentang ϵ ?

Dalam skenario OLS, orang akan berharap bahwa ϵ independen dan terdistribusi normal.

Apakah masuk akal untuk menganalisis residu dalam regresi LASSO?

Saya tahu bahwa perkiraan LASSO dapat diperoleh sebagai mode posterior di bawah prior-eksponensial ganda independen untuk βj . Tapi saya belum menemukan standar "fase pemeriksaan asumsi".

Terima kasih sebelumnya (:

deps_stats
sumber

Jawaban:

16

Saya bukan ahli LASSO, tetapi ini adalah pendapat saya.

Pertama-tama perhatikan bahwa OLS cukup kuat untuk pelanggaran kemerdekaan dan normalitas. Kemudian dilihat dari Teorema 7 dan pembahasan di atasnya dalam artikel Robust Regression and Lasso (oleh X. Huan, C. Caramanis dan S. Mannor) Saya kira, bahwa dalam regresi LASSO kita lebih peduli tidak dengan distribusi εi , tetapi dalam distribusi gabungan (yi,xi) . Teorema ini bergantung pada asumsi bahwa (yi,xi) adalah sampel, jadi ini sebanding dengan asumsi OLS biasa. Tapi LASSO kurang membatasi, itu tidak membatasi yi akan dihasilkan dari model linier.

Singkatnya, jawaban untuk pertanyaan pertama Anda adalah tidak. Tidak ada asumsi distribusi di , semua asumsi distribusi ada di . Lebih jauh lagi mereka lebih lemah, karena di LASSO tidak ada dalil tentang distribusi kondisional .ε(y,X)(y|X)

Karena itu, jawaban untuk pertanyaan kedua adalah juga tidak. Karena tidak memainkan peran apa pun, tidak masuk akal untuk menganalisisnya seperti cara Anda menganalisisnya dalam OLS (tes normalitas, heteroskedastisitas, Durbin-Watson, dll.). Namun Anda harus menganalisisnya dalam konteks seberapa baik model tersebut cocok.ε

mpiktas
sumber