Apa komponen utama yang "diputar" dan "tidak diputar", mengingat bahwa PCA selalu memutar sumbu koordinat?

13

Sejauh yang saya mengerti, komponen utama diperoleh dengan memutar sumbu koordinat untuk menyelaraskannya dengan arah varian maksimum.

Namun demikian, saya terus membaca tentang "komponen utama yang tidak diputar" dan perangkat lunak statistik saya (SAS) memberi saya komponen utama yang diputar-varimax serta komponen yang tidak diputar. Di sini saya bingung: ketika kita menghitung komponen utama, sumbu sudah diputar; jadi mengapa diperlukan rotasi lain? Dan apa yang dimaksud dengan "komponen utama yang tidak diputar" artinya?

Srewashi Lahiri
sumber
1
Pertanyaan semata-mata tentang cara kerja perangkat lunak di luar topik di sini, tetapi Anda mungkin memiliki pertanyaan statistik yang sebenarnya terkubur di sini. Anda mungkin ingin mengedit pertanyaan Anda untuk mengklarifikasi masalah statistik yang mendasarinya. Anda mungkin menemukan bahwa ketika Anda memahami konsep statistik yang terlibat, elemen spesifik perangkat lunak itu jelas atau setidaknya mudah diperoleh dari dokumentasi.
gung - Reinstate Monica
1
@ung - Pertanyaan saya bukan tentang perangkat lunak. Mungkin saya salah menempatkannya. Semua yang ingin saya ketahui adalah bahwa sesuai pemahaman saya, kami memperoleh komponen utama hanya ketika kami memutar sumbu di garis varians maksimum. Lalu apa komponen utama yang tidak diputar, istilah yang saya temukan di berbagai halaman yang menjelaskan tentang PCA. Mohon beri tahu saya jika pertanyaan saya masih ambigu.
Srewashi Lahiri
Ini tentu terlihat seperti ini tentang SAS. Jika tidak, saya akan mengedit Q Anda untuk menghapus referensi ke SAS & menjelaskan kembali pertanyaan Anda dalam istilah netral perangkat lunak. Anda mungkin juga tertarik membaca utas ini .
gung - Reinstate Monica
Saya menyebutkan SAS karena saya melakukan analisis dalam perangkat lunak itu. Bahkan jika Anda mengabaikan kata, Anda bisa memberikan saya penjelasan untuk versi pertanyaan saya yang sudah diedit. Saya juga melalui utas. Mohon perbaiki saya jika saya salah. Ketika kita menghitung komponen utama, itu berarti sumbu sudah diputar. Jadi notasi varimax lain tidak diperlukan. Apakah begitu? Saya benar-benar bingung tentang bagian ini. Terima kasih banyak sebelumnya
Srewashi Lahiri
2
Srewashi, saya telah mengambil kebebasan untuk secara substansial menulis ulang pertanyaan Anda berdasarkan klarifikasi Anda di komentar. Saya pikir ini adalah pertanyaan yang bagus, +1. Harap periksa bahwa suntingan saya mencerminkan niat Anda! Anda selalu dapat mengedit lebih banyak. Cc ke @gung.
Amoeba berkata Reinstate Monica

Jawaban:

15

Ini akan menjadi jawaban non-teknis.

Anda benar: PCA pada dasarnya adalah rotasi sumbu koordinat, dipilih sedemikian rupa sehingga setiap sumbu yang berhasil menangkap varian sebanyak mungkin.

Dalam beberapa disiplin ilmu (seperti misalnya psikologi), orang suka menerapkan PCA untuk menafsirkan sumbu yang dihasilkan. Yaitu mereka ingin dapat mengatakan bahwa sumbu utama # 1 (yang merupakan kombinasi linear dari variabel asli) memiliki beberapa makna tertentu. Untuk menebak makna ini, mereka akan melihat bobot dalam kombinasi linier. Namun, bobot ini sering berantakan dan tidak ada makna yang jelas yang bisa dilihat.

Dalam kasus ini, orang kadang-kadang memilih untuk bermain-main sedikit dengan solusi PCA vanilla. Mereka mengambil sejumlah sumbu utama (yang dianggap "signifikan" oleh beberapa kriteria), dan juga memutarnya, mencoba mencapai beberapa "struktur sederhana" --- yaitu, kombinasi linear yang akan lebih mudah untuk ditafsirkan. Ada algoritma spesifik yang mencari struktur paling sederhana yang mungkin; salah satunya disebut varimax. Setelah rotasi varimax, komponen berturut-turut tidak lagi menangkap varian sebanyak mungkin! Fitur PCA ini rusak dengan melakukan rotasi varimax tambahan (atau lainnya).

Jadi sebelum menerapkan rotasi varimax, Anda memiliki komponen utama "tidak diputar". Dan setelah itu, Anda mendapatkan komponen utama yang "diputar". Dengan kata lain, terminologi ini mengacu pada post-processing hasil PCA dan bukan ke rotasi PCA itu sendiri.


Semua ini agak rumit oleh fakta bahwa apa yang diputar adalah memuat dan bukan sumbu utama. Namun, untuk perincian matematis, saya merujuk Anda (dan pembaca yang tertarik) ke jawaban panjang saya di sini: Apakah PCA diikuti oleh rotasi (seperti varimax) masih PCA?

amuba kata Reinstate Monica
sumber
Saya belum menemukan penjelasan yang lebih baik dan lebih jelas. Saya juga pergi melalui tautan lain yang Anda berikan tetapi saya belum menguraikannya secara total. Jika saya mengerti benar maka komponen utama yang tidak diputar sudah ortogonal dan tidak berkorelasi. Di sini saya memiliki sedikit kebingungan - karena PC sesuai dengan varians maksimum berturut-turut maka apakah perlu bahwa setelah PC pertama ditemukan, garis varians maksimum kedua (PC kedua) akan berada pada 90 derajat (ortogonal) dengan yang pertama dan seterusnya ?
Srewashi Lahiri
Itu benar: komponen utama "tidak diputar" tidak berkorelasi dan sumbu utama "tidak diputar" adalah ortogonal. Dan ya, perlu bahwa sumbu utama berturut-turut adalah komponen ortogonal dan utama tidak berkorelasi dengan yang sebelumnya (orang dapat membuktikannya secara matematis). Omong-omong, jika Anda berpikir bahwa jawaban ini (atau yang lain) menjawab masalah untuk Anda, Anda dapat "menerimanya" dengan mengklik tanda centang hijau di sebelah kiri. Setelah Anda mencapai 15 reputasi, Anda juga akan dapat meningkatkan jawaban yang menurut Anda berguna (saya pikir saat ini Anda tidak dapat meningkatkan jawaban apa pun).
Amuba mengatakan Reinstate Monica
+1. what gets rotated are loadings and not principal axes as suchSaya akan menambahkan bahwa ini adalah gagasan teknis. Secara teoritis, kedua jenis rotasi ini disandingkan. Dalam PCA kami memutar untuk menemukan basis ortogonal spesifik (yang dengan plot scree-nilai eigen yang paling curam). Dalam varimax, kami memutar untuk menemukan basis ortogonal spesifik lain (dengan struktur yang paling saling-dapat-antar). Kita bisa melakukan segala macam dasar ortogonal.
ttnphns
Jika memungkinkan, bisakah Anda menjelaskannya dengan istilah awam apa arti pc yang tidak diputar?
sai_636
@ai_636 Untuk istilah awam, silakan lihat stats.stackexchange.com/questions/2691 .
Amuba mengatakan Reinstate Monica