Dengan risiko membuat pertanyaan khusus perangkat lunak, dan dengan alasan di mana-mana dan keistimewaannya, saya ingin bertanya tentang fungsi biplot()
dalam R, dan, lebih khusus, tentang perhitungan dan perencanaan default, panah merah yang dilapiskan, sesuai ke variabel yang mendasarinya.
[Untuk memahami beberapa komentar, plot yang semula diposkan memiliki masalah kelangkaan minat yang langka, dan sekarang dihapus.]
.74752, .66424; -.74752, .66424
.biplot(name_of_the_PCA)
panggilan, yang dalam hal ini adalahbiplot(PCA)
. Saya telah memusatkan dan memperbesar data.Jawaban:
Berikut ini bergantung pada dataset Iris di R , dan secara khusus tiga variabel pertama (kolom):
Sepal.Length, Sepal.Width, Petal.Length
.Sebuah biplot menggabungkan memuat rencana (eigen unstandardized) - dalam beton, dua pertama beban , dan sebidang skor (diputar dan dilatasi titik data diplot terhadap komponen utama). Dengan menggunakan dataset yang sama, @amoeba menjelaskan 9 kemungkinan kombinasi PCA biplot berdasarkan 3 kemungkinan normalisasi plot skor dari komponen utama pertama dan kedua, dan 3 normalisasi plot pemuatan (panah) dari variabel awal. Untuk melihat bagaimana R menangani kombinasi yang mungkin ini, menarik untuk melihat
biplot()
metode ini:Aljabar linier pertama siap untuk disalin dan ditempel:
1. Mereproduksi plot pemuatan (panah):
Di sini interpretasi geometris pada posting ini oleh @ttnphns sangat membantu. Notasi diagram dalam postingan telah dipertahankan: berarti variabel dalam ruang subjek . adalah panah yang sesuai pada akhirnya diplot; dan koordinat dan adalah komponen yang memuat variabel sehubungan dengan dan :h ′ a 1 a 2 V PC 1 PC 2V h′ a1 a2 V PC1 PC2
Sepal L.
Komponen variabelPC1
Sepal L.
sehubungan dengan akan menjadi:yang, jika skor sehubungan dengan - sebut saja mereka - distandarisasi sehinggaS 1PC1 S1
Karena ,∥V∥=∑x2−−−−√
Juga,
Kembali ke Persamaan. ,(1)
Menggandakan dan tumpang tindih dengan warna biru panah merah
biplot()
Tempat menarik:
atau dalam kode R:
atau bahkan ...
menghubungkan dengan penjelasan geometris pemuatan oleh @ttnphns , atau pos informatif lainnya ini juga oleh @ttnphns .
Ada faktor penskalaan:,
sqrt(nrow(X) - 1)
yang tetap menjadi sedikit misteri.2. Merencanakan
biplot()
plot skor (dan panah secara bersamaan):Sumbu diskalakan ke satuan jumlah kuadrat, sesuai dengan plot pertama dari baris pertama pada pos @ amoeba , yang dapat direproduksi dengan memplot matriks dari dekomposisi svd (lebih lanjut tentang ini nanti) - " Kolom : ini adalah komponen utama yang diskalakan ke satuan jumlah kuadrat. "U U
Ada dua skala berbeda yang dimainkan di sumbu horizontal bawah dan atas dalam konstruksi biplot:
Namun skala relatif tidak segera jelas, membutuhkan menggali fungsi dan metode:
biplot()
plot skor sebagai kolom di SVD, yang merupakan vektor satuan ortogonal:Sedangkan
prcomp()
fungsi dalam R mengembalikan skor yang diskalakan ke nilai eigennya:Oleh karena itu kita dapat mengatur varians menjadi dengan membaginya dengan nilai eigen:1
Tetapi karena kita ingin jumlah kuadrat menjadi , kita harus membaginya dengan karena:1 n−1−−−−−√
Dari catatan penggunaan faktor penskalaan , kemudian diubah menjadi ketika mendefinisikan penjelasan tampaknya terletak pada kenyataan bahwan−1−−−−−√ n−−√
lan
Setelah melepaskan semua
if
pernyataan dan bulu pembersih rumah lainnya,biplot()
hasilkan sebagai berikut:yang, seperti yang diharapkan, mereproduksi (gambar kanan di bawah)
biplot()
output yang disebut langsung denganbiplot(PCA)
(plot kiri di bawah) dalam semua kekurangan estetika yang tak tersentuh:Tempat menarik:
ratio
). Komentar AS @amoeba:sumber
R
ke pertanyaan Anda karena masalah yang membingungkan (yaitu, koefisien penskalaan) terbukti sebagian R-spesifik. Secara umum, Anda dapat melihat sendiri bahwa biplot PCA adalah sebaran sebaran skor komponen (koordinat baris) dan koefisien arah komponen (koordinat kolom), dan karena berbagai jumlah standardisasi oleh "inersia" (varians) dapat diterapkan untuk masing-masing terlalu, sehingga berbagai tampilan biplot dapat muncul. Untuk menambahkan: paling umum (lebih masuk akal), pemuatan ditampilkan sebagai kolom koordinat (panah).