Asumsi LASSO

Dalam skenario regresi LASSO di mana

$y= X \beta + \epsilon$ ,

dan perkiraan LASSO diberikan oleh masalah optimisasi berikut

$\min_\beta ||y - X \beta|| + \tau||\beta||_1$

Apakah ada asumsi distribusi tentang $\epsilon$ ?

Dalam skenario OLS, orang akan berharap bahwa $\epsilon$ independen dan terdistribusi normal.

Apakah masuk akal untuk menganalisis residu dalam regresi LASSO?

Saya tahu bahwa perkiraan LASSO dapat diperoleh sebagai mode posterior di bawah prior-eksponensial ganda independen untuk $\beta_j$ . Tapi saya belum menemukan standar "fase pemeriksaan asumsi".

Terima kasih sebelumnya (:

regression lasso assumptions residuals deps_stats
sumber

Jawaban:

Saya bukan ahli LASSO, tetapi ini adalah pendapat saya.

Pertama-tama perhatikan bahwa OLS cukup kuat untuk pelanggaran kemerdekaan dan normalitas. Kemudian dilihat dari Teorema 7 dan pembahasan di atasnya dalam artikel Robust Regression and Lasso (oleh X. Huan, C. Caramanis dan S. Mannor) Saya kira, bahwa dalam regresi LASSO kita lebih peduli tidak dengan distribusi $\varepsilon_i$ , tetapi dalam distribusi gabungan $(y_i,x_i)$ . Teorema ini bergantung pada asumsi bahwa $(y_i,x_i)$ adalah sampel, jadi ini sebanding dengan asumsi OLS biasa. Tapi LASSO kurang membatasi, itu tidak membatasi $y_i$ akan dihasilkan dari model linier.

Singkatnya, jawaban untuk pertanyaan pertama Anda adalah tidak. Tidak ada asumsi distribusi di , semua asumsi distribusi ada di . Lebih jauh lagi mereka lebih lemah, karena di LASSO tidak ada dalil tentang distribusi kondisional . $\varepsilon$ $(y,X)$ $(y|X)$

Karena itu, jawaban untuk pertanyaan kedua adalah juga tidak. Karena tidak memainkan peran apa pun, tidak masuk akal untuk menganalisisnya seperti cara Anda menganalisisnya dalam OLS (tes normalitas, heteroskedastisitas, Durbin-Watson, dll.). Namun Anda harus menganalisisnya dalam konteks seberapa baik model tersebut cocok. $\varepsilon$

mpiktas
sumber