Sparsity dengan membuang koefisien kuadrat terkecil

14

Misalkan saya ingin mundur terhadap X yang dinormalisasi , tetapi saya ingin solusi yang jarang. Setelah regresi, mengapa membuang koefisien dengan besaran terkecil tidak diperbolehkan?YX

Sebagai catatan, saya telah mendengar tentang, dan sering menggunakan, metode LARS dan LASSO. Saya hanya ingin tahu mengapa pendekatan di atas tidak berlaku.

Cam.Davidson.Pilon
sumber
2
+1 Pertanyaan-pertanyaan sederhana ini bisa sulit - mereka membuat orang berpikir keras tentang konsep dasar.
whuber

Jawaban:

14

Tidak akan ada masalah jika adalah ortonormal. Namun, kemungkinan korelasi yang kuat antara variabel penjelas harus memberi kita jeda.X

X1X2X3X1X2YX3X1,X2X1X2X3

Geometri dapat dibuat kembali dengan simulasi, seperti yang dilakukan oleh Rperhitungan ini :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Xi1X320YR20.99750.38

Matriks sebar mengungkapkan semua:

Matriks sebar x1, x2, x3, dan y

x3yx1yx2yx3x1x2

whuber
sumber
2

Tampak bagi saya bahwa jika koefisien estimasi mendekati 0 dan data dinormalisasi bahwa prediksi tidak akan terluka dengan membuang variabel. Tentu saja jika koefisiennya tidak signifikan secara statistik, tampaknya tidak ada masalah. Tapi ini harus dilakukan dengan hati-hati. IVs mungkin berkorelasi dan menghapus satu bisa mengubah koefisien yang lain. Ini semakin berbahaya jika Anda mulai memperbaiki beberapa variabel dengan cara ini. Prosedur pemilihan subset dirancang untuk menghindari masalah seperti itu dan menggunakan kriteria yang masuk akal untuk memasukkan dan mengeluarkan variabel. Jika Anda bertanya kepada Frank Harrell, ia akan menentang prosedur bertahap. Anda menyebutkan LARS dan LASSO yang merupakan dua metode yang sangat modern. Tetapi ada banyak yang lain Termasuk kriteria informasi yang mendukung pengenalan terlalu banyak variabel.

Jika Anda mencoba prosedur pemilihan subset yang telah dipelajari dengan hati-hati dengan banyak literatur tentang hal itu, Anda mungkin akan menemukan bahwa itu akan mengarah pada solusi yang merevisi variabel dengan koefisien kecil terutama jika mereka gagal dalam tes karena secara statistik berbeda secara signifikan dari 0.

Michael R. Chernick
sumber