Saya tahu bahwa dalam situasi regresi, jika Anda memiliki satu set variabel yang sangat berkorelasi ini biasanya "buruk" karena ketidakstabilan dalam koefisien yang diperkirakan (varians menuju infinity sebagai determinan menuju nol).
Pertanyaan saya adalah apakah "kejahatan" ini tetap ada dalam situasi PCA. Apakah vektor koefisien / beban / bobot / eigen untuk PC tertentu menjadi tidak stabil / arbitrer / non-unik karena matriks kovarians menjadi tunggal? Saya terutama tertarik pada kasus di mana hanya komponen utama pertama dipertahankan, dan semua yang lain diberhentikan sebagai "kebisingan" atau "sesuatu yang lain" atau "tidak penting".
Saya tidak berpikir begitu, karena Anda hanya akan dibiarkan dengan beberapa komponen utama yang memiliki nol, atau mendekati nol varians.
Mudah untuk melihat ini bukan kasus dalam kasus ekstrim sederhana dengan 2 variabel - misalkan mereka berkorelasi sempurna. Kemudian PC pertama akan menjadi hubungan linier yang tepat, dan PC kedua akan tegak lurus dengan PC pertama, dengan semua nilai PC sama dengan nol untuk semua pengamatan (yaitu nol varians). Ingin tahu apakah ini lebih umum.
sumber
Jawaban:
Jawabannya mungkin diberikan dalam istilah yang lebih sederhana: regresi berganda memiliki satu langkah lebih banyak daripada pca jika dilihat dari segi aljabar linier, dan dari langkah kedua ketidakstabilan muncul:
Langkah pertama pca dan mult. regresi dapat dilihat sebagai anjak dari korelasi-matriks menjadi dua faktor Cholesky L ⋅ L t , yang segitiga -dan yang acuh tak acuh terhadap rendah atau korelasi yang tinggi. (Pca kemudian dapat dilihat sebagai rotasi faktor cholesky (segitiga) ke posisi pc (ini disebut rotasi Jacobi sejauh yang saya ingat)R L⋅Lt
Mult. prosedur regresi adalah untuk menerapkan inversi faktor cholesky minus baris dan kolom variabel dependen, yang dengan mudah berada di baris terakhir dari matriks korelasi. Ketidakstabilan berperan di sini: jika variabel independen sangat berkorelasi, maka diagonal dari faktor cholesky L dapat merosot ke nilai numerik yang sangat kecil - dan untuk membalikkan yang memperkenalkan maka masalah pembagian hampir nol.L
L
sumber
PCA sering merupakan sarana untuk mencapai tujuan; mengarah ke input ke regresi berganda atau untuk digunakan dalam analisis kluster. Saya pikir dalam kasus Anda, Anda berbicara tentang menggunakan hasil PCA untuk melakukan regresi.
Dalam hal ini, tujuan Anda melakukan PCA adalah untuk menghilangkan mulitcollinearity dan mendapatkan input ortogonal untuk regresi berganda, tidak mengherankan ini disebut Regresi Komponen Utama. Di sini, jika semua input asli Anda ortogonal maka melakukan PCA akan memberi Anda satu set input ortogonal. Karena itu; jika Anda melakukan PCA, orang akan menganggap bahwa input Anda memiliki multikolinieritas.
Referensi
Johnson & Wichern (2001). Analisis Statistik Multivariat Terapan (Edisi 6). Prentice Hall.
sumber