Pertanyaan tentang PCA: kapan PC independen? mengapa PCA sensitif terhadap penskalaan? mengapa PC dibatasi menjadi orthogonal?

11

Saya mencoba memahami beberapa deskripsi PCA (dua yang pertama dari Wikipedia), penekanan ditambahkan:

Komponen utama dijamin independen hanya jika kumpulan data terdistribusi secara normal .

Apakah independensi komponen utama sangat penting? Bagaimana saya bisa mengerti deskripsi ini?

PCA sensitif terhadap skala relatif dari variabel asli.

Apa artinya 'penskalaan' di sana? Normalisasi dimensi yang berbeda?

Transformasi didefinisikan sedemikian rupa sehingga komponen utama pertama memiliki varians terbesar yang mungkin dan masing-masing komponen berikutnya pada gilirannya memiliki varians tertinggi di bawah kendala yang menjadi ortogonal dengan komponen sebelumnya .

Bisakah Anda menjelaskan batasan ini?

kakanana
sumber
3
# 2 hanya berlaku jika PCA dilakukan dengan eigendecomosisi dari matriks kovarians. Jika dilakukan dengan eigendekomposisi dari matriks korelasi, maka PCA tidak sensitif terhadap penskalaan.
Alexis
@Alexis Terima kasih atas kiriman Anda. Untuk # 2, maukah Anda menjelaskan apa arti penskalaan '? perubahan dinamis dari dimensi data yang sesuai?
kakanana
1
"Penskalaan" dapat berarti beberapa hal. (1) Ini dapat berarti transformasi linear dataX, seperti X=a+bXdimana <a< dan 0<b<; atau (2) bahwa variabel individu dalamXsemua diukur pada skala yang sama dan memiliki varian ukuran yang dekat. Komentar saya berlaku untuk kedua arti ini.
Alexis

Jawaban:

21

Q1. Komponen utama adalah variabel yang saling ortogonal (tidak berkorelasi). Orthogonality dan kemandirian statistik bukan sinonim . Tidak ada yang istimewa tentang komponen utama; hal yang sama berlaku untuk semua variabel dalam analisis data multivarian. Jika data multivarian normal (yang tidak sama dengan menyatakan bahwa setiap variabel normal univariat) dan variabel tidak berkorelasi, maka ya, mereka independen. Apakah independensi komponen utama penting atau tidak - tergantung pada bagaimana Anda akan menggunakannya. Cukup sering, ortogonalitas mereka akan mencukupi.

Q2. Ya, penskalaan berarti menyusut atau meregangkan varians dari masing-masing variabel. Variabelnya adalah dimensi ruang tempat data berada. Hasil PCA - komponen - peka terhadap bentuk awan data, bentuk "ellipsoid" itu. Jika Anda hanya memusatkan variabel, biarkan variansnya apa adanya, ini sering disebut "PCA berdasarkan covariances". Jika Anda juga membakukan variabel ke varians = 1, ini sering disebut "PCA berdasarkan korelasi", dan itu bisa sangat berbeda dari yang sebelumnya (lihat utas ). Juga, orang yang relatif jarang melakukan PCA pada data yang tidak terpusat: data mentah atau hanya diskalakan dengan besaran unit; hasil PCA tersebut jauh berbeda dari tempat Anda memusatkan data (lihat gambar ).

Q3. "Kendala" adalah cara kerja PCA (lihat utas besar ). Bayangkan data Anda adalah awan 3 dimensi (3 variabel,npoin); asal diatur pada centroid (rata-rata) itu. PCA menarik komponen1 sebagai poros melalui titik asal, jumlah proyeksi kuadrat (koordinat) yang dimaksimalkan ; yaitu varians sepanjang component1 dimaksimalkan. Setelah komponen1 didefinisikan, itu dapat dihapus sebagai dimensi, yang berarti bahwa titik data diproyeksikan ke bidang ortogonal ke komponen itu. Anda dibiarkan dengan awan 2 dimensi. Kemudian lagi, Anda menerapkan prosedur di atas untuk menemukan sumbu varians maksimal - sekarang di cloud 2D yang tersisa ini. Dan itu akan menjadi komponen2. Anda menghapus komponen2 yang ditarik dari pesawat dengan memproyeksikan titik data ke garis orthogonaluntuk itu. Baris itu, yang mewakili awan 1D yang tersisa, didefinisikan sebagai komponen terakhir, komponen 3. Anda dapat melihat bahwa pada masing-masing 3 "langkah" ini, analisis a) menemukan dimensi varian terbesar dalam aruspruang -dimensi, b) mengurangi data ke dimensi tanpa dimensi itu, yaitu ke p1-dimensi ruang ortogonal ke dimensi yang disebutkan. Begitulah ternyata bahwa setiap komponen utama adalah "varians maksimal" dan semua komponen saling ortogonal (lihat juga ).

[ PS Harap dicatat bahwa "orthogonal" berarti dua hal: (1) sumbu variabel sebagai sumbu tegak lurus fisik; (2) variabel tidak berkorelasi dengan datanya. Dengan PCA dan beberapa metode multivarian lainnya, kedua hal ini adalah hal yang sama. Tetapi dengan beberapa analisis lain (misalnya analisis Diskriminan), variabel laten yang diekstraksi yang tidak berkorelasi tidak secara otomatis berarti bahwa sumbu mereka tegak lurus di ruang asli.]

ttnphns
sumber
+1 (dahulu kala). Pembaca masa depan mungkin ingin membaca jawaban atas pertanyaan ini juga: Mengapa komponen utama dalam PCA (vektor eigen dari matriks kovarians) saling ortogonal? - ini ditandai sebagai duplikat dari yang ini, tetapi berisi beberapa jawaban yang berguna.
amoeba
@ttnphns Dalam PS Anda menulis "dua hal ini adalah hal yang sama". Saya menemukan frasa ini agak membingungkan. Jika saya berpikir tentang PCA sebagai perubahan basis, maka mengatakan bahwa basis baru itu ortogonal tidak sama dengan mengatakan bahwa fitur-fitur baru (yaitu setelah perubahan basis) tidak berkorelasi (saya mungkin dapat menemukan basis ortogonal lain sedemikian rupa sehingga fitur - fitur baru tersebut berkorelasi). Saya menyadari bahwa PCA menjamin PC tidak berkorelasi dan sumbu utama bersifat ortogonal, tetapi mengapa hal ini sama?
Oren Milman
@ttnphns juga, mungkin akan membantu untuk menautkan ke jawaban ini ? Ini membantu saya menghapus beberapa kebingungan sehubungan dengan ortogonalitas vs tidak berkorelasi variabel acak, karena menurut beberapa definisi mereka sama, dan menurut beberapa definisi mereka sama hanya untuk variabel terpusat ..
Oren Milman
@orenmn, terima kasih atas komentar Anda tentang ortogonalitas. Namun, dalam catatan kaki saya, saya mengatakan tentang ortogonalitas sumbu , bukan vektor data. Silakan ikuti tautan yang saya berikan untuk menunjukkan.
ttnphns