Saya mencoba memahami beberapa deskripsi PCA (dua yang pertama dari Wikipedia), penekanan ditambahkan:
Komponen utama dijamin independen hanya jika kumpulan data terdistribusi secara normal .
Apakah independensi komponen utama sangat penting? Bagaimana saya bisa mengerti deskripsi ini?
PCA sensitif terhadap skala relatif dari variabel asli.
Apa artinya 'penskalaan' di sana? Normalisasi dimensi yang berbeda?
Transformasi didefinisikan sedemikian rupa sehingga komponen utama pertama memiliki varians terbesar yang mungkin dan masing-masing komponen berikutnya pada gilirannya memiliki varians tertinggi di bawah kendala yang menjadi ortogonal dengan komponen sebelumnya .
Bisakah Anda menjelaskan batasan ini?
pca
dimensionality-reduction
kakanana
sumber
sumber
Jawaban:
Q1. Komponen utama adalah variabel yang saling ortogonal (tidak berkorelasi). Orthogonality dan kemandirian statistik bukan sinonim . Tidak ada yang istimewa tentang komponen utama; hal yang sama berlaku untuk semua variabel dalam analisis data multivarian. Jika data multivarian normal (yang tidak sama dengan menyatakan bahwa setiap variabel normal univariat) dan variabel tidak berkorelasi, maka ya, mereka independen. Apakah independensi komponen utama penting atau tidak - tergantung pada bagaimana Anda akan menggunakannya. Cukup sering, ortogonalitas mereka akan mencukupi.
Q2. Ya, penskalaan berarti menyusut atau meregangkan varians dari masing-masing variabel. Variabelnya adalah dimensi ruang tempat data berada. Hasil PCA - komponen - peka terhadap bentuk awan data, bentuk "ellipsoid" itu. Jika Anda hanya memusatkan variabel, biarkan variansnya apa adanya, ini sering disebut "PCA berdasarkan covariances". Jika Anda juga membakukan variabel ke varians = 1, ini sering disebut "PCA berdasarkan korelasi", dan itu bisa sangat berbeda dari yang sebelumnya (lihat utas ). Juga, orang yang relatif jarang melakukan PCA pada data yang tidak terpusat: data mentah atau hanya diskalakan dengan besaran unit; hasil PCA tersebut jauh berbeda dari tempat Anda memusatkan data (lihat gambar ).
Q3. "Kendala" adalah cara kerja PCA (lihat utas besar ). Bayangkan data Anda adalah awan 3 dimensi (3 variabel,n poin); asal diatur pada centroid (rata-rata) itu. PCA menarik komponen1 sebagai poros melalui titik asal, jumlah proyeksi kuadrat (koordinat) yang dimaksimalkan ; yaitu varians sepanjang component1 dimaksimalkan. Setelah komponen1 didefinisikan, itu dapat dihapus sebagai dimensi, yang berarti bahwa titik data diproyeksikan ke bidang ortogonal ke komponen itu. Anda dibiarkan dengan awan 2 dimensi. Kemudian lagi, Anda menerapkan prosedur di atas untuk menemukan sumbu varians maksimal - sekarang di cloud 2D yang tersisa ini. Dan itu akan menjadi komponen2. Anda menghapus komponen2 yang ditarik dari pesawat dengan memproyeksikan titik data ke garis orthogonaluntuk itu. Baris itu, yang mewakili awan 1D yang tersisa, didefinisikan sebagai komponen terakhir, komponen 3. Anda dapat melihat bahwa pada masing-masing 3 "langkah" ini, analisis a) menemukan dimensi varian terbesar dalam arusp ruang -dimensi, b) mengurangi data ke dimensi tanpa dimensi itu, yaitu ke p−1 -dimensi ruang ortogonal ke dimensi yang disebutkan. Begitulah ternyata bahwa setiap komponen utama adalah "varians maksimal" dan semua komponen saling ortogonal (lihat juga ).
[ PS Harap dicatat bahwa "orthogonal" berarti dua hal: (1) sumbu variabel sebagai sumbu tegak lurus fisik; (2) variabel tidak berkorelasi dengan datanya. Dengan PCA dan beberapa metode multivarian lainnya, kedua hal ini adalah hal yang sama. Tetapi dengan beberapa analisis lain (misalnya analisis Diskriminan), variabel laten yang diekstraksi yang tidak berkorelasi tidak secara otomatis berarti bahwa sumbu mereka tegak lurus di ruang asli.]
sumber