Apa yang dimaksud dengan "PCA (Principal Component Analysis) di sekitar data"?

8

Saya sedang membaca beberapa catatan dan dikatakan bahwa PCA dapat "sphere data". Apa yang mereka definisikan kepada saya sebagai "sphering the data" adalah membagi setiap dimensi dengan akar kuadrat dari nilai eigen yang sesuai.

Saya mengasumsikan bahwa dengan "dimensi" yang mereka maksudkan adalah setiap basis vektor yang kita proyeksikan (yaitu vektor eigen yang kita proyeksikan ke). Jadi saya kira mereka melakukan:

ui=uieigenValue(ui)

dimana uiadalah salah satu vektor eigen (yaitu salah satu komponen utama). Kemudian dengan vektor baru itu, saya berasumsi mereka memproyeksikan data mentah yang kita miliki, katakanlahx(i) untuk z(i). Jadi poin yang diproyeksikan sekarang adalah:

z(i)=uix(i)

Mereka mengklaim bahwa melakukan ini memastikan bahwa semua fitur memiliki varian yang sama.

Namun, saya bahkan tidak yakin apakah interpretasi saya tentang apa yang mereka maksudkan dengan sphering benar dan ingin memeriksa apakah itu benar. Juga, bahkan jika itu benar, apa gunanya melakukan sesuatu seperti ini? Saya tahu mereka mengklaim itu memastikan semua orang memiliki varian yang sama tetapi, mengapa kita ingin melakukan ini dan bagaimana cara mencapai ini?

Pinokio
sumber
2
Apa yang Anda katakan itu benar. uadalah nilai vektor eigen dan terkait dengan nilai PC mentah. u'disebut memuat dan terkait dengan nilai PC yang dinormalisasi (sama varians). Anda mungkin ingin membaca jawaban saya tentang itu: stats.stackexchange.com/a/35653/3277 .
ttnphns
Dengan kata lain, Anda dapat menghitung nilai PC mentah dan kemudian membakukannya dengan varians (unit) yang sama. Atau, untuk mendapatkan hasil yang sama, pertama-tama Anda dapat menghitung pemuatan dan kemudian menghitung nilai PC dengan bantuan mereka.
ttnphns
Untuk apa nilainya sebagian besar orang tidak akan menganggap penggunaan 'sphere' ini sebagai kata kerja sebagai gaya bahasa Inggris yang sangat baik, bahkan jika itu dapat dipahami.
nekomatic

Jawaban:

4

Pemahaman Anda benar. Lihat gambar ini yang mewakili berbagai kemungkinan poin data Anda: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Mereka terlihat ellipsoidal. Jika Anda melakukan apa yang telah Anda jelaskan di atas, misalnya, kompres titik-titik ke arah yang paling banyak mereka sebarkan (kira-kira garis 45 derajat pada gambar), titik-titik tersebut akan terletak dalam lingkaran (bola dalam dimensi yang lebih tinggi).

Salah satu alasan Anda memperbesar data adalah saat melakukan prediksi dan pemahaman koordinat mana yang penting. Katakanlah Anda ingin memprediksiy menggunakan x1 dan x2, dan Anda mendapatkan nilai koefisien β1 dan β2 yaitu yβ1x1+β2x2. Sekarang jikax1 dan x2 memiliki varian yang sama, yaitu mereka didistribusikan secara kasar, dan Anda menemukannya β1=1 sementara β2=10, Anda dapat menafsirkan ini mengatakan itu x2 pengaruh y lebih dari x1. Namun jika skala mereka tidak sama, danx1 didistribusikan 10 kali lebih banyak dari x2, maka Anda akan mendapatkan nilai di atas β1 dan β2 bahkan jika mereka berdua terpengaruh ykira-kira sama. Untuk meringkas, Anda "membulatkan" atau "menormalkan" untuk membuat kesimpulan tentang pentingnya variabel dari koefisiennya.

elexhobby
sumber