Kami biasanya menggunakan PCA sebagai teknik reduksi dimensi untuk data di mana kasus dianggap iid
Pertanyaan: Apa nuansa khas dalam menerapkan PCA untuk data dependen dan non-iid? Apa sifat bagus / berguna PCA yang berlaku untuk data iid dikompromikan (atau hilang seluruhnya)?
Sebagai contoh, data dapat berupa deret waktu multivariat di mana autokorelasi atau autoregresif kondisional heteroskedastisitas (ARCH) dapat diharapkan.
Beberapa pertanyaan terkait tentang penerapan PCA ke data deret waktu telah diajukan sebelumnya, misalnya 1 , 2 , 3 , 4 , tetapi saya mencari jawaban yang lebih umum dan komprehensif (tanpa perlu memperluas banyak pada setiap titik individual).
Sunting: Seperti dicatat oleh @ttnphns, PCA sendiri bukan merupakan analisis inferensial. Namun, orang dapat tertarik pada kinerja generalisasi PCA, yaitu berfokus pada populasi pendamping sampel PCA. Misalnya seperti yang ditulis dalam Nadler (2008) :
Dengan asumsi data yang diberikan adalah sampel terbatas dan acak dari distribusi (umumnya tidak diketahui), pertanyaan teoretis dan praktis yang menarik adalah hubungan antara sampel hasil PCA dihitung dari data hingga dan orang-orang dari model populasi yang mendasari.
Referensi:
- Nadler, Boaz. "Hasil pendekatan sampel hingga untuk analisis komponen utama: Pendekatan perturbasi matriks." The Annals of Statistics (2008): 2791-2817.
sumber
Jawaban:
Agaknya, Anda dapat menambahkan komponen waktu sebagai fitur tambahan ke poin sampel Anda, dan sekarang semuanya benar? Pada dasarnya, titik data asli tergantung pada waktu:
... dan sampel data sekarang saling independen.
Dalam praktiknya, dengan memasukkan waktu sebagai fitur di setiap titik data, PCA dapat memiliki akibat bahwa satu komponen hanya menunjuk sepanjang sumbu fitur waktu. Tetapi jika ada fitur yang berkorelasi dengan fitur waktu, komponen mungkin terdiri dari satu atau lebih fitur ini, serta fitur waktu.
sumber