Kebutuhan untuk memusatkan dan menstandarkan data dalam regresi

Pertimbangkan regresi linier dengan beberapa regularisasi: Misalnya Find yang meminimalkan $x$ $||Ax - b||^2+\lambda||x||_1$

Biasanya, kolom A distandarisasi untuk memiliki rata-rata nol dan norma satuan, sedangkan berpusat untuk memiliki rata-rata nol. Saya ingin memastikan apakah pemahaman saya tentang alasan standardisasi dan pemusatan adalah benar. $b$

Dengan membuat sarana kolom dan nol, kita tidak perlu istilah intersepsi lagi. Kalau tidak, tujuannya adalah . Dengan membuat norma-norma kolom A sama dengan 1, kami menghapus kemungkinan kasus di mana hanya karena satu kolom A memiliki norma yang sangat tinggi, itu mendapatkan koefisien rendah dalam , yang mungkin membuat kita menyimpulkan secara tidak benar bahwa kolom A tidak "menjelaskan" baik. $A$ $b$ $||Ax-x_01-b||^2+\lambda||x||_1$ $x$ $x$

Alasan ini tidak tepat tetapi secara intuitif, apakah itu cara berpikir yang benar?

regression lasso regularization standardization rk2
sumber

Jawaban:

Anda benar tentang memusatkan nilai rata-rata kolom dan . $A$ $b$

Namun, untuk menyesuaikan norma-norma kolom , pertimbangkan apa yang akan terjadi jika Anda memulai dengan bernorma , dan semua elemen kira-kira sama besarnya. Lalu, mari kita gandakan satu kolom dengan, katakanlah, . Elemen yang sesuai dari akan, dalam regresi yang tidak diatur, ditingkatkan dengan faktor . Lihat apa yang akan terjadi pada istilah regularisasi? Regulatorisasi, untuk semua tujuan praktis, hanya berlaku untuk satu koefisien tersebut. $A$ $A$ $x$ $10^{-6}$ $x$ $10^6$

Dengan menormalkan kolom , kita, menulis secara intuitif, menempatkan semuanya pada skala yang sama. Akibatnya, perbedaan dalam besaran unsur-unsur secara langsung berkaitan dengan "keragu-raguan" dari fungsi penjelas ( ), yang, secara longgar, apa yang coba diatur oleh regularisasi. Tanpa itu, nilai koefisien, misalnya, 0,1 vs yang lain dari 10,0 akan memberi tahu Anda, jika tidak ada pengetahuan tentang , tidak ada koefisien yang berkontribusi paling besar pada "kegoyahan" . (Untuk fungsi linier, seperti , "keroyokan" terkait dengan penyimpangan dari 0.) $A$ $x$ $Ax$ $A$ $Ax$ $Ax$

Untuk kembali ke penjelasan Anda, jika satu kolom memiliki norma yang sangat tinggi, dan untuk beberapa alasan mendapat koefisien rendah dalam , kami tidak akan menyimpulkan bahwa kolom tidak "menjelaskan" baik. tidak "menjelaskan" sama sekali. $A$ $x$ $A$ $x$ $A$ $x$

Jbowman
sumber

$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at all

A

$A$

x

$x$

x

$x$

β

$\beta$

A

$A$

X

$X$

b

$b$

y

$y$

x

$x$

A

$A$