Apakah skor komponen utama (skor PC, skor PCA)?
pca
definition
vrish88
sumber
sumber
Jawaban:
Pertama, mari kita tentukan skor.
John, Mike dan Kate mendapatkan persentase berikut untuk ujian dalam Matematika, Sains, Bahasa Inggris dan Musik sebagai berikut:
Dalam hal ini ada total 12 skor. Setiap skor mewakili hasil ujian untuk setiap orang dalam mata pelajaran tertentu. Jadi skor dalam kasus ini hanyalah representasi dari tempat baris dan kolom berpotongan.
Sekarang mari kita secara informal mendefinisikan Komponen Utama.
Pada tabel di atas, dapatkah Anda dengan mudah memplot data dalam grafik 2D? Tidak, karena ada empat mata pelajaran (yang berarti empat variabel: Matematika, Sains, Bahasa Inggris, dan Musik), yaitu:
Tapi bagaimana Anda merencanakan 4 mata pelajaran?
Saat ini kami memiliki empat variabel yang masing-masing hanya mewakili satu subjek. Jadi metode di sekitar ini mungkin entah bagaimana menggabungkan subjek menjadi mungkin hanya dua variabel baru yang kemudian bisa kita plot. Ini dikenal sebagai penskalaan multidimensi .
Analisis Komponen Utama adalah bentuk penskalaan multidimensi. Ini adalah transformasi linear dari variabel menjadi ruang dimensi yang lebih rendah yang mempertahankan jumlah maksimal informasi tentang variabel. Sebagai contoh, ini berarti kita dapat melihat jenis mata pelajaran yang mungkin lebih cocok untuk setiap siswa.
Komponen utama karena itu merupakan kombinasi dari variabel asli setelah transformasi linear. Dalam R, ini adalah:
Yang akan memberi Anda sesuatu seperti ini (dua Komponen Utama hanya demi kesederhanaan):
Kolom pertama di sini menunjukkan koefisien kombinasi linier yang mendefinisikan komponen utama # 1, dan kolom kedua menunjukkan koefisien untuk komponen utama # 2.
Jadi apa yang dimaksud Skor Komponen Utama?
Ini adalah skor dari tabel di akhir posting ini (lihat di bawah).
Output di atas dari R berarti kita sekarang dapat memplot skor setiap orang di semua mata pelajaran dalam grafik 2D sebagai berikut. Pertama, kita perlu memusatkan variabel asli yang berarti kolom pengurangan saya:
Dan kemudian untuk membentuk kombinasi linear untuk mendapatkan skor PC1 dan PC2 :
Yang disederhanakan menjadi:
Ada enam skor komponen utama dalam tabel di atas. Sekarang Anda dapat memplot skor dalam grafik 2D untuk mengetahui jenis mata pelajaran yang mungkin lebih cocok untuk setiap siswa.
Output yang sama dapat diperoleh dalam R dengan mengetik
prcomp(DF, scale = FALSE)$x
.EDIT 1: Hmm, saya mungkin bisa memikirkan contoh yang lebih baik, dan ada lebih dari itu yang saya taruh di sini, tapi saya harap Anda mendapatkan idenya.
EDIT 2: kredit penuh kepada @drpaulbrewer untuk komentarnya dalam meningkatkan jawaban ini.
sumber
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
output apa . Sebelumnya tidak.Principal component analysis (PCA) adalah salah satu pendekatan populer yang menganalisis varian ketika Anda berurusan dengan data multivarian. Anda memiliki variabel acak X1, X2, ... Xn yang semuanya berkorelasi (positif atau negatif) ke berbagai tingkat, dan Anda ingin mendapatkan pemahaman yang lebih baik tentang apa yang terjadi. PCA dapat membantu.
Apa yang PCA berikan kepada Anda adalah perubahan variabel menjadi Y1, Y2, ..., Yn (yaitu jumlah variabel yang sama) yang merupakan kombinasi linear dari Xs. Misalnya, Anda mungkin memiliki Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...
Ys properti bagus yang masing-masing tidak memiliki korelasi satu sama lain. Lebih baik lagi, Anda mendapatkannya dalam mengurangi varians. Jadi, Y1 "menjelaskan" sebagian besar varian dari variabel asli, Y2 sedikit kurang dan seterusnya. Biasanya setelah beberapa Ys pertama, variabel menjadi agak tidak berarti. Skor PCA untuk Xi mana pun adalah hanya koefisiennya di masing-masing Ys. Dalam contoh saya sebelumnya, skor untuk X2 dalam komponen utama pertama (Y1) adalah 1,76.
Cara PCA melakukan keajaiban ini adalah dengan menghitung vektor eigen dari matriks kovarians.
Untuk memberikan contoh nyata, bayangkan X1, ... X10 adalah perubahan dalam 1 tahun, 2 tahun, ..., imbal hasil obligasi Treasury 10 tahun selama beberapa periode waktu. Ketika Anda menghitung PCA Anda biasanya menemukan bahwa komponen pertama memiliki skor untuk setiap ikatan dari tanda yang sama dan tentang tanda yang sama. Ini memberitahu Anda bahwa sebagian besar variasi dalam hasil obligasi berasal dari segala sesuatu yang bergerak dengan cara yang sama: "pergeseran paralel" naik atau turun. Komponen kedua biasanya menunjukkan "curam" dan "perataan" kurva dan memiliki tanda-tanda berlawanan untuk X1 dan X10.
sumber
PC1 > PC2 > ... > PCn
dan jumlah variansinya sama dengan jumlah varians dari set variabel awal, karena PCA dihitung berdasarkan matriks kovarians, yaitu variabel distandarisasi (SD = 1, VAR = 1).Katakanlah Anda memiliki awan titik N di, katakanlah, 3D (yang dapat dicantumkan dalam array 100x3). Kemudian, analisis komponen utama (PCA) cocok dengan ellipsoid berorientasi sewenang-wenang ke dalam data. Skor komponen utama adalah panjang diameter ellipsoid.
Dalam arah di mana diameternya besar, data bervariasi banyak, sedangkan ke arah di mana diameternya kecil, data bervariasi. Jika Anda ingin memproyeksikan data Nd ke plot pencar 2-d, Anda memplotnya di sepanjang dua komponen utama terbesar, karena dengan pendekatan itu Anda menampilkan sebagian besar varian dalam data.
sumber
Saya suka menganggap skor komponen utama sebagai "pada dasarnya tidak berarti" sampai Anda benar-benar memberi mereka beberapa makna. Menafsirkan skor PC dalam hal "realitas" adalah bisnis yang rumit - dan tidak ada cara unik untuk melakukannya. Itu tergantung pada apa yang Anda ketahui tentang variabel-variabel tertentu yang masuk ke PCA, dan bagaimana mereka saling berhubungan dalam hal interpretasi.
Sejauh matematika berjalan, saya suka menafsirkan skor PC sebagai koordinat setiap titik, sehubungan dengan sumbu komponen utama. Jadi dalam variabel mentah yang Anda milikixi =(x1i,x2i,…,xpi) x1 x1i zi =(z1i,z2i,…,zpi)=A(xi−x¯¯¯) A p×p x¯¯¯
Jadi, Anda bisa menganggap vektor eigen menggambarkan di mana "garis lurus" yang menggambarkan PC. Kemudian skor komponen utama menggambarkan di mana setiap titik data terletak pada setiap garis lurus, relatif terhadap "sentriod" data. Anda juga dapat memikirkan skor PC dalam kombinasi dengan vektor bobot / eigen sebagai serangkaian prediksi peringkat 1 untuk setiap titik data asli, yang memiliki bentuk:
sumber
Komponen utama dari matriks data adalah pasangan nilai eigen-vektor-eigen dari matriks varians-kovariansnya. Intinya, mereka adalah potongan varian yang terkait dengan dekorasi. Masing-masing adalah kombinasi linear dari variabel untuk pengamatan - misalkan Anda mengukur w, x, y, z pada masing-masing sekelompok subjek. PC pertama Anda mungkin berfungsi seperti itu
0,5w + 4x + 5thn - 1,5z
Muatan (vektor eigen) di sini adalah (0,5, 4, 5, -1.5). Skor (nilai eigen) untuk setiap pengamatan adalah nilai yang dihasilkan ketika Anda mengganti dalam observasi (w, x, y, z) dan menghitung total.
Ini sangat berguna ketika Anda memproyeksikan sesuatu ke komponen utama mereka (untuk, katakanlah, deteksi outlier) karena Anda hanya merencanakan skor pada masing-masing seperti Anda akan data lainnya. Ini dapat mengungkapkan banyak tentang data Anda jika sebagian besar varians berkorelasi (== di beberapa PC pertama).
sumber
Output dari R pada PCA (contoh palsu) terlihat seperti ini. PC1, PC2 ... adalah komponen utama 1, 2 ... Contoh di bawah ini hanya menampilkan 8 komponen utama pertama (dari 17). Anda juga dapat mengekstrak elemen lain dari PCA, seperti memuat dan skor.
sumber
Skor komponen utama adalah sekelompok skor yang diperoleh setelah Analisis Komponen Utama (PCA). Dalam PCA, hubungan antara sekelompok skor dianalisis sedemikian rupa sehingga jumlah variabel "imajiner" baru yang sama (alias komponen prinsip) dibuat. Yang pertama dari variabel imajiner baru ini berkorelasi maksimal dengan semua kelompok variabel asli. Berikutnya agak kurang berkorelasi, dan seterusnya sampai pada titik bahwa jika Anda menggunakan semua komponen utama mencetak skor untuk memprediksi variabel apa pun yang diberikan dari kelompok awal Anda akan dapat menjelaskan semua variansnya. Cara PCA menghasilkan adalah kompleks dan memiliki batasan tertentu. Di antaranya adalah pembatasan bahwa korelasi antara dua komponen utama (yaitu variabel imajiner) adalah nol; jadi itu tidak
sumber