Bagaimana cara memusatkan data menyingkirkan intersepsi dalam regresi dan PCA?

40

Saya terus membaca tentang contoh di mana kami memusatkan data (misalnya, dengan regularisasi atau PCA) untuk menghapus intersep (seperti yang disebutkan dalam pertanyaan ini ). Saya tahu itu sederhana, tetapi saya mengalami kesulitan memahami hal ini secara intuitif. Bisakah seseorang memberikan intuisi atau referensi yang bisa saya baca?

Alec
sumber
2
Ini adalah kasus yang sangat khusus "mengendalikan variabel lain" seperti yang dijelaskan (dalam beberapa cara) di stats.stackexchange.com/questions/17336/… . "Variabel" yang dikendalikan adalah istilah konstan (intersep).
whuber

Jawaban:

66

Bisakah foto-foto ini membantu?

2 gambar pertama adalah tentang regresi. Memusatkan data tidak mengubah kemiringan garis regresi, tetapi membuat intersep sama dengan 0.

masukkan deskripsi gambar di sini

1

masukkan deskripsi gambar di sini


1

ttnphns
sumber
1
y¯-X¯β
16
PCA is maximizing varianceIni umumnya tidak benar. PCA memaksimalkan (dengan PC ke-1) jumlah penyimpangan kuadrat dari asalnya. Hanya jika data berpusat awal (centering itu sendiri bukan bagian dari PCA) itu ternyata memaksimalkan varian.
ttnphns
3
NB Perhatikan bahwa perhitungan kovarian atau korelasi menyiratkan keterpusatan
ttnphns
1
> PS Perhatikan bahwa perhitungan kovariansi atau korelasi menyiratkan keterpusatan - ttnphns 27 Agustus 12 di 11:47 Sementara saya setuju dengan komentar Anda yang lain, baik kovarian dan korelasi TIDAK menyiratkan keterpusatan. Baik cor maupun kovar tidak mengubah nilai ketika konstanta aditif diterapkan pada data.
TPM
1
Ini mundur. Konstanta aditif memang tidak mempengaruhi korelasi, tetapi itu karena mereka dikurangi dalam perhitungan, seperti yang ditunjukkan oleh @ttphns. Selain itu, ini bukan jawaban baru, tetapi komentar. Kami memahami bahwa Anda belum memiliki reputasi yang cukup untuk berkomentar, jadi saya percaya, ini akan dipindahkan oleh pengguna dengan reputasi yang cukup setelah saya beri tanda.
Nick Cox