Variabel pemindahan / penskalaan tidak akan memengaruhi korelasinya dengan respons
Untuk melihat mengapa ini benar, anggaplah bahwa korelasi antara dan X adalah ρ . Maka korelasi antara Y dan ( X - a ) / b adalahYXρY( X- a ) / b
c o v (Y, ( X- a ) / b )S D ((X- a ) / b ) ⋅ S D ( Y)= c o v ( Y, X/ b)S D (X/ b)⋅ S D (Y)= 1b⋅ c o v ( Y, X)1bS D (X) ⋅ S D ( Y)= ρ
yang mengikuti dari definisi korelasi dan tiga fakta:
c o v (Y,X+ A ) = c o v (Y,X) + C o v (Y, a )= 0= C o v (Y,X)
c o v (Y, aX) = A c o v (Y,X)
S D (aX) = a ⋅ S D ( X)
Oleh karena itu, dalam hal kecocokan model (misalnya atau nilai yang dipasang), menggeser atau menskalakan variabel Anda (misalnya menempatkannya pada skala yang sama) tidak akan mengubah modelR2 , karena koefisien regresi linier terkait dengan korelasi antar variabel. Itu hanya akan mengubah skala koefisien regresi Anda , yang harus diingat ketika Anda menafsirkan output jika Anda memilih untuk mengubah prediksi Anda.
Sunting: Di atas diasumsikan bahwa Anda berbicara tentang regresi biasa dengan intersep. Beberapa poin lagi yang terkait dengan ini (terima kasih @ cardinal):
Intersep dapat berubah ketika Anda mengubah variabel Anda dan, seperti @ cardinal menunjukkan dalam komentar, koefisien akan berubah ketika Anda menggeser variabel Anda jika Anda menghilangkan intersep dari model, meskipun saya menganggap Anda tidak melakukan itu kecuali Anda memiliki alasan yang bagus (lihat misalnya jawaban ini ).
Jika Anda mengatur koefisien Anda dalam beberapa cara (misalnya Lasso, regresi ridge), maka pemusatan / penskalaan akan berdampak pada kecocokan. Misalnya, jika Anda menghukum (hukuman regresi ridge) maka Anda tidak dapat memulihkan setara fit setelah standardisasi kecuali semua variabel berada pada skala yang sama di tempat pertama, yaitu tidak ada beberapa konstanta yang akan memulihkan penalti yang sama.∑ β2saya
Mengenai kapan / mengapa seorang peneliti mungkin ingin mengubah prediktor
Keadaan umum (dibahas dalam jawaban berikutnya oleh @ Paul) adalah bahwa peneliti akan menstandarkan prediktor mereka sehingga semua koefisien akan berada pada skala yang sama. Dalam hal ini, ukuran estimasi titik dapat memberikan gambaran kasar tentang prediktor mana yang memiliki efek terbesar setelah besaran numerik prediktor telah distandarisasi.
Alasan lain seorang peneliti mungkin ingin skala variabel yang sangat besar adalah agar koefisien regresi tidak pada skala yang sangat kecil. Misalnya, jika Anda ingin melihat pengaruh ukuran populasi suatu negara terhadap tingkat kejahatan (tidak bisa memikirkan contoh yang lebih baik), Anda mungkin ingin mengukur ukuran populasi dalam jutaan daripada dalam unit aslinya, karena koefisien mungkin sekitar .0,00000001
Yang disebut "normalisasi" adalah rutinitas umum untuk sebagian besar metode regresi. Ada dua cara:
Karena regresi linier sangat sensitif terhadap rentang variabel, saya biasanya menyarankan untuk menormalkan semua variabel jika Anda tidak memiliki pengetahuan sebelumnya tentang ketergantungan dan berharap semua variabel menjadi penting secara relativeley.
Hal yang sama berlaku untuk variabel respons, meskipun tidak terlalu penting bagi mereka.
Mengapa melakukan normalisasi atau standartisasi? Sebagian besar untuk menentukan dampak relatif dari berbagai variabel dalam model. Itu bisa dicapai jika semua variabel berada di unit yang sama.
Semoga ini membantu!
sumber
x1,x2,y
summary(lm(y~x1+x2))$r.sq
summary(lm(y~scale(x1)+scale(x2)))$r.sq