Apa yang PCA lakukan dengan data autokorelasi?

9

Hanya karena beberapa koresponden mengajukan pertanyaan menarik mengenai metode perhitungan autokorelasi, saya mulai bermain dengannya, hampir tanpa pengetahuan tentang rangkaian waktu dan autokorelasi.

Koresponden mengatur datanya ( titik data dari serangkaian waktu) digeser masing-masing satu lag sehingga ia memiliki matriks data (seperti yang saya mengerti) di mana baris pertama adalah data asli, baris kedua data digeser oleh unit waktu, baris berikutnya dengan yang lain dan seterusnya. Saya menyadari ini tambahan dengan menempelkan ujung ke ekor, sehingga membuat dataset "melingkar".32 × 32 13232×321

Kemudian, hanya untuk melihat apa yang mungkin keluar darinya, saya menghitung matriks korelasi dan dari sini komponen utama. Anehnya saya mendapatkan gambar dari dekomposisi frekuensi, dan (lagi dengan data lain) satu frekuensi, mengatakan bahwa dengan satu periode dalam data berada di komponen utama pertama, dan bahwa dengan empat periode berada di PC kedua dan seterusnya (Saya mendapat "relevan" PC dengan nilai eigen6 > 1326>1). Pertama saya pikir ini tergantung pada data input, tapi sekarang saya menganggapnya secara sistematis dengan konstruksi khusus dari kumpulan data dengan pergeseran melingkar (juga dikenal sebagai matriks "Toeplitz"). Rotasi solusi-PC untuk varimax atau kriteria rotasi lainnya memberikan hasil yang sedikit berbeda, dan mungkin menarik, tetapi secara umum tampaknya memberikan dekomposisi frekuensi tersebut.

Berikut ini tautan ke gambar yang saya buat dari kumpulan data titik; kurva hanya dibuat dari pemuatan factormatrix: satu kurva pemuatan pada satu faktor. Kurva PC1 pertama harus menunjukkan amplitudo tertinggi (kira-kira karena menanggung jumlah beban tertinggi)32

Pertanyaan:

  • T1: Apakah ini fitur desain? (PCA dengan tipe dataset ini)
  • T2: Apakah pendekatan ini memang bisa digunakan untuk pendekatan yang serius terhadap analisis frekuensi- / panjang gelombang?

[pembaruan] di sini adalah dataset (harap akan keluar agar dapat disalin untuk Anda)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3
Gottfried Helms
sumber
Terima kasih @amoeba dan untuk banyak pengeditan. Saya hanya melihat dua kesalahan yang ingin saya edit nanti, pertanyaannya terlihat jauh lebih baik sekarang!
Gottfried Helms

Jawaban:

4

Biarkan saya mengonversi komentar saya sebelumnya menjadi jawaban.

Apakah Anda membayangkan baris dalam matriks data Anda menjadi variabel atau sampel? Saya akan menganggap mereka adalah sampel: yaitu Anda memiliki deret waktu yang berbeda (sampel).n=32

Kemudian, jika semua baris identik, tetapi hanya digeser secara melingkar dengan masing-masing posisi, maka matriks Gram data Anda yang terdiri dari produk titik antara semua pasangan baris akan memiliki struktur Toeplitz: nilai tinggi dekat dengan diagonal dan secara bertahap menurun ke nilai nol menjauh dari itu. Matriks Toeplitz memiliki mode Fourier berurutan karena vektor eigennya (dan vektor eigen dari matriks Gram adalah komponen utama, hingga penskalaan), jadi ya untuk Q1 Anda: tidak mengherankan bahwa Anda mendapatkan gelombang sinusoidal dengan peningkatan frekuensi sebagai PC.1 n × nn=321n×n

Tidak tahu apakah itu bisa berguna (Q2). Dalam pengalaman saya, itu cenderung muncul sebagai artefak yang mengganggu. Yaitu orang memiliki beberapa data, mendapatkan sesuatu yang menyerupai mode Fourier dari PCA dan mulai bertanya-tanya apa artinya, sedangkan mereka hanya karena beberapa perubahan waktu dalam seri waktu asli.

amuba
sumber
Sangat bagus, terima kasih! Ya, saya sudah memikirkan data di sepanjang baris. Q2 datang juga karena saya tidak pernah mengerti sampai hari ini bagaimana tepatnya analisis Fourier bekerja - dan secara kebetulan ini bisa menjadi salah satu langkah untuk mendapatkan intuisi tentang (tetapi harapan yang samar-samar ini tampaknya benar-benar sia-sia di sini ...)
Gottfried Helms
Ngomong-ngomong, maukah Anda berbagi seri waktu 32-nilai Anda? Saya ingin memasukkan gambar yang menunjukkan matriks Gram, dan saya bisa melakukannya langsung dengan data Anda.
amoeba
Apakah Anda melihat tautan di pertanyaan saya? Ini mengalihkan ke halaman web yang saya buat menggunakan exce.l Ini memiliki 4 atau 5 subhalaman, yang dapat dipilih oleh "firefox" dalam instalasi saya dengan klik pada bilah-bilah di tab-bar di bagian bawah layar. Subhalaman pertama menunjukkan daftar data. Namun secara vertikal: seseorang harus menganggapnya sebagai baris pertama dalam tabel baru dan menambahkan 31 baris saat bersepeda ke kanan. Jika itu merepotkan saya juga dapat menambahkan data ke pertanyaan saya ...
Gottfried Helms
Oh wow, saya tidak menyadari itu adalah keseluruhan lembar bentang online, dan bukan hanya tangkapan layar! Terima kasih.
amoeba