Saya menormalkan dataset saya kemudian menjalankan 3 komponen PCA untuk mendapatkan rasio varians yang dijelaskan kecil ([0,50, 0,1, 0,05]).
Ketika saya tidak menormalkan tetapi memutihkan dataset saya kemudian menjalankan 3 komponen PCA, saya mendapat rasio varian yang dijelaskan tinggi ([0,86, 0,06,0,01]).
Karena saya ingin menyimpan sebanyak mungkin data menjadi 3 komponen, haruskah saya TIDAK menormalkan data? Dari pemahaman saya, kita harus selalu menormalkan sebelum PCA.
Dengan menormalkan: pengaturan berarti 0 dan memiliki varian unit.
Jawaban:
Tergantung pada tujuan analisis Anda. Beberapa praktik umum, beberapa di antaranya disebutkan dalam tautan whuber:
Contoh intuitif:
Misalkan Anda memiliki dua variabel: tinggi pohon dan ketebalan pohon yang sama. Kami akan mengonversi volume menjadi faktor: volume pohon akan tinggi jika volumenya lebih besar dari 20 kaki kubik, dan sebaliknya volume rendah. Kami akan menggunakan dataset pohon yang dimuat di R.
Sekarang anggaplah bahwa ketinggian sebenarnya diukur dalam mil bukan kaki.
Komponen pertama menjelaskan hampir 100% dari variabilitas dalam data. Pemuatan:
Penilaian grafis:
Kita melihat bahwa pohon dengan volume tinggi cenderung memiliki ketebalan pohon yang tinggi, tetapi ketiganya tidak memberikan informasi tentang volume pohon. Ini kemungkinan salah dan konsekuensi dari dua ukuran unit yang berbeda.
Kita bisa menggunakan unit yang sama, atau kita bisa membuat standar variabel. Saya berharap keduanya akan mengarah pada gambaran variabilitas yang lebih seimbang. Tentu saja dalam kasus ini orang dapat berargumen bahwa variabel harus memiliki unit yang sama tetapi tidak dibakukan, yang mungkin merupakan argumen yang valid, seandainya kita tidak mengukur dua hal yang berbeda. (Ketika kita akan mengukur berat pohon dan ketebalan pohon, skala di mana keduanya harus diukur tidak lagi sangat jelas. Dalam hal ini kita memiliki argumen yang jelas untuk bekerja pada variabel standar.)
Kita sekarang melihat bahwa pohon yang tinggi dan memiliki lingkar besar, volumenya tinggi (sudut kiri bawah), dibandingkan dengan lingkar rendah dan tinggi rendah untuk pohon volume rendah (sudut kanan atas). Ini secara intuitif masuk akal.
Namun, jika seseorang memperhatikan dengan seksama, kita melihat bahwa kontras antara volume tinggi / rendah paling kuat dalam arah ketebalan dan tidak dalam arah ketinggian. Mari kita lihat apa yang terjadi ketika kita melakukan standarisasi:
Memang, ketebalan sekarang menjelaskan sebagian besar perbedaan pohon volume tinggi dan rendah! (Panjang panah dalam biplot adalah indikasi varians dalam variabel asli.) Jadi, bahkan jika hal-hal diukur pada skala yang sama, standardisasi mungkin berguna. Tidak ada standardisasi yang direkomendasikan ketika kita misalnya membandingkan panjang spesies pohon yang berbeda karena pengukuran ini persis sama.
sumber