Sparsity dengan membuang koefisien kuadrat terkecil

14

Misalkan saya ingin mundur terhadap dinormalisasi , tetapi saya ingin solusi yang jarang. Setelah regresi, mengapa membuang koefisien dengan besaran terkecil tidak diperbolehkan? $Y$ $X$

Sebagai catatan, saya telah mendengar tentang, dan sering menggunakan, metode LARS dan LASSO. Saya hanya ingin tahu mengapa pendekatan di atas tidak berlaku.

regression regression-coefficients Cam.Davidson.Pilon
sumber

2

+1 Pertanyaan-pertanyaan sederhana ini bisa sulit - mereka membuat orang berpikir keras tentang konsep dasar.

whuber

14

Tidak akan ada masalah jika adalah ortonormal. Namun, kemungkinan korelasi yang kuat antara variabel penjelas harus memberi kita jeda. $X$

$X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ $X_2$ $X_3$

Geometri dapat dibuat kembali dengan simulasi, seperti yang dilakukan oleh Rperhitungan ini :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

$X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ $0.38$

Matriks sebar mengungkapkan semua:

Matriks sebar x1, x2, x3, dan y

$x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

whuber
sumber

2

Tampak bagi saya bahwa jika koefisien estimasi mendekati 0 dan data dinormalisasi bahwa prediksi tidak akan terluka dengan membuang variabel. Tentu saja jika koefisiennya tidak signifikan secara statistik, tampaknya tidak ada masalah. Tapi ini harus dilakukan dengan hati-hati. IVs mungkin berkorelasi dan menghapus satu bisa mengubah koefisien yang lain. Ini semakin berbahaya jika Anda mulai memperbaiki beberapa variabel dengan cara ini. Prosedur pemilihan subset dirancang untuk menghindari masalah seperti itu dan menggunakan kriteria yang masuk akal untuk memasukkan dan mengeluarkan variabel. Jika Anda bertanya kepada Frank Harrell, ia akan menentang prosedur bertahap. Anda menyebutkan LARS dan LASSO yang merupakan dua metode yang sangat modern. Tetapi ada banyak yang lain Termasuk kriteria informasi yang mendukung pengenalan terlalu banyak variabel.

Jika Anda mencoba prosedur pemilihan subset yang telah dipelajari dengan hati-hati dengan banyak literatur tentang hal itu, Anda mungkin akan menemukan bahwa itu akan mengarah pada solusi yang merevisi variabel dengan koefisien kecil terutama jika mereka gagal dalam tes karena secara statistik berbeda secara signifikan dari 0.

Michael R. Chernick
sumber

Sparsity dengan membuang koefisien kuadrat terkecil

Jawaban: