Kebutuhan untuk memusatkan dan menstandarkan data dalam regresi

16

Pertimbangkan regresi linier dengan beberapa regularisasi: Misalnya Find yang meminimalkan | | A x - b | | 2 + λ | | x | | 1x||Axb||2+λ||x||1

Biasanya, kolom A distandarisasi untuk memiliki rata-rata nol dan norma satuan, sedangkan berpusat untuk memiliki rata-rata nol. Saya ingin memastikan apakah pemahaman saya tentang alasan standardisasi dan pemusatan adalah benar.b

Dengan membuat sarana kolom dan b nol, kita tidak perlu istilah intersepsi lagi. Kalau tidak, tujuannya adalah | | A x - x 0 1 - b | | 2 + λ | | x | | 1 . Dengan membuat norma-norma kolom A sama dengan 1, kami menghapus kemungkinan kasus di mana hanya karena satu kolom A memiliki norma yang sangat tinggi, itu mendapatkan koefisien rendah dalam x , yang mungkin membuat kita menyimpulkan secara tidak benar bahwa kolom A tidak "menjelaskan" x dengan baik.Ab||Axx01b||2+λ||x||1xx

Alasan ini tidak tepat tetapi secara intuitif, apakah itu cara berpikir yang benar?

rk2
sumber

Jawaban:

14

Anda benar tentang memusatkan nilai rata-rata kolom dan b .Ab

Namun, untuk menyesuaikan norma-norma kolom , pertimbangkan apa yang akan terjadi jika Anda memulai dengan A bernorma , dan semua elemen x kira-kira sama besarnya. Lalu, mari kita gandakan satu kolom dengan, katakanlah, 10 - 6 . Elemen yang sesuai dari x akan, dalam regresi yang tidak diatur, ditingkatkan dengan faktor 10 6 . Lihat apa yang akan terjadi pada istilah regularisasi? Regulatorisasi, untuk semua tujuan praktis, hanya berlaku untuk satu koefisien tersebut. AAx106x106

Dengan menormalkan kolom , kita, menulis secara intuitif, menempatkan semuanya pada skala yang sama. Akibatnya, perbedaan dalam besaran unsur-unsur x secara langsung berkaitan dengan "keragu-raguan" dari fungsi penjelas ( A x ), yang, secara longgar, apa yang coba diatur oleh regularisasi. Tanpa itu, nilai koefisien, misalnya, 0,1 vs yang lain dari 10,0 akan memberi tahu Anda, jika tidak ada pengetahuan tentang A , tidak ada koefisien yang berkontribusi paling besar pada "kegoyahan" A x . (Untuk fungsi linier, seperti A x , "keroyokan" terkait dengan penyimpangan dari 0.)AxAxAAxAx

Untuk kembali ke penjelasan Anda, jika satu kolom memiliki norma yang sangat tinggi, dan untuk beberapa alasan mendapat koefisien rendah dalam x , kami tidak akan menyimpulkan bahwa kolom A tidak "menjelaskan" x dengan baik. A tidak "menjelaskan" x sama sekali. AxAxAx

Jbowman
sumber
$x$ does not ''explain'' $A$ wellx does not ''explain'' $A$ at allAx
xβAXbyxA