Pertanyaan tentang standardisasi dalam regresi ridge

16

Hai teman-teman, saya menemukan satu atau dua makalah yang menggunakan regresi ridge (untuk data bola basket). Saya selalu diminta untuk menstandardisasi variabel saya jika saya menjalankan regresi punggungan, tetapi saya hanya diminta untuk melakukan ini karena punggungan adalah varian skala (regresi punggungan tidak benar-benar bagian dari kursus kami, jadi dosen kami membaca skalanya).

Makalah-makalah ini saya baca tidak membakukan variabel mereka, yang saya temukan sedikit mengejutkan. Mereka juga berakhir dengan nilai-nilai besar lambda (sekitar level 2000-4000) melalui cross-validation, dan saya diberitahu bahwa ini adalah karena tidak menstandarisasi variabel.

Bagaimana tepatnya meninggalkan variabel yang tidak standar mengarah ke nilai lambda yang tinggi dan juga, apa konsekuensi dari tidak menstandarkan variabel secara umum? Apakah ini benar-benar masalah besar?

Bantuan apa pun sangat kami hargai.

l_davies93
sumber

Jawaban:

18

Regresi Ridge meregulasi regresi linier dengan mengenakan penalti pada ukuran koefisien. Dengan demikian koefisien-koefisiennya menyusut menuju nol dan terhadap satu sama lain. Tetapi ketika ini terjadi dan jika variabel independen tidak memiliki skala yang sama, penyusutan tidak adil. Dua variabel independen dengan skala yang berbeda akan memiliki kontribusi yang berbeda terhadap ketentuan yang terkena hukuman, karena istilah yang dikenakan sanksi adalah jumlah kuadrat dari semua koefisien. Untuk menghindari masalah semacam itu, sangat sering, variabel independen dipusatkan dan diskalakan untuk memiliki varian 1.

[Kemudian edit untuk menjawab komentar]

hesayaght

Istilah hukuman dengan lambda sama dengan mengekspresikan fungsi kerugian kuadrat sehubungan dengan jumlah koefisien kuadrat kurang dari atau sama dengan konstanta yang diberikan. Itu berarti, lambda yang lebih besar memberikan banyak ruang untuk jumlah kuadrat dari koefisien, dan lambda yang lebih rendah ruang yang lebih kecil. Ruang yang lebih besar atau lebih kecil berarti nilai absolut yang lebih besar atau lebih kecil dari koefisien.

Dengan tidak menggunakan standardisasi, maka agar sesuai dengan model mungkin membutuhkan nilai absolut yang besar dari koefisien. Tentu saja, kita mungkin memiliki nilai koefisien yang besar secara alami, karena peran variabel dalam model. Apa yang saya nyatakan adalah bahwa nilai ini mungkin memiliki nilai artifisial meningkat karena tidak penskalaan. Jadi, penskalaan juga mengurangi kebutuhan akan nilai koefisien yang besar. Dengan demikian, nilai optimal lambda biasanya lebih kecil, yang sesuai dengan jumlah yang lebih kecil dari nilai kuadrat koefisien.

rapaio
sumber
Terima kasih. Bagaimana tidak membakukan mengarah pada perkiraan kesalahan pengujian yang lebih tinggi (melalui validasi silang), dan dengan demikian diperlukan lambda yang lebih tinggi?
l_davies93
Saya menambahkan pemikiran saya dalam jawaban
rapaio
Saya tahu ini adalah Pertanyaan lama, tetapi bisakah Anda menjelaskan mengapa Parameter Tuning harus semakin besar, jika kita mengubah data kami dari kilometer ke meter misalnya
Leo96
1

Meskipun terlambat empat tahun, saya harap seseorang akan mendapat manfaat dari ini .... Cara saya memahaminya, coeff adalah berapa banyak variabel target perubahan untuk perubahan unit dalam variabel independen (dy / dx). Mari kita asumsikan kita sedang mempelajari hubungan antara berat dan tinggi dan berat diukur dalam Kg. Ketika kita menggunakan Kilometer untuk ketinggian, Anda bisa membayangkan sebagian besar titik data (untuk ketinggian manusia) dikemas dengan cermat. Jadi, untuk perubahan fraksional kecil tinggi akan ada perubahan besar berat (dengan asumsi kenaikan berat badan dengan tinggi). Rasio dy / dx akan sangat besar. Di sisi lain, jika ketinggian diukur dalam milimeter, data akan tersebar jauh dan luas pada atribut ketinggian. Satuan perubahan tinggi badan tidak akan memiliki perubahan berat dy / dx yang signifikan akan sangat kecil hampir mendekati 0.

pengguna3358819
sumber