Saya menggunakan PCA untuk menganalisis beberapa deret waktu terkait spasial, dan tampaknya vektor eigen pertama sesuai dengan turunan dari tren rata-rata deret tersebut (contoh diilustrasikan di bawah). Saya ingin tahu mengapa vektor eigen pertama berhubungan dengan turunan dari tren yang bertentangan dengan tren itu sendiri?
Data disusun dalam matriks di mana baris adalah deret waktu untuk setiap entitas spasial dan kolom (dan pada gilirannya dimensi dalam PCA) adalah tahun (yaitu dalam contoh di bawah, 10 deret waktu masing-masing 7 tahun). Data juga berpusat pada rata-rata sebelum PCA.
Stanimirovic et al., 2007 sampai pada kesimpulan yang sama, tetapi penjelasan mereka sedikit di luar jangkauan aljabar linier saya.
[Perbarui] - menambahkan data seperti yang disarankan.
[Update2] - JAWABAN. Saya menemukan kode saya salah menggunakan transpos matriks vektor eigen ketika merencanakan hasil ( excel_walkthrough ) (terima kasih @amoeba). Sepertinya itu hanya kebetulan bahwa hubungan transpose-eigenvector / turunan ada untuk pengaturan khusus ini. Seperti yang dijelaskan secara matematis dan intuitif dalam posting ini, vektor eigen pertama memang berhubungan dengan tren yang mendasarinya dan bukan turunannya .
sumber
Jawaban:
Mari kita abaikan pemusatan keji untuk sesaat. Salah satu cara untuk memahami data adalah dengan melihat setiap rangkaian waktu sebagai kira-kira kelipatan tetap dari "tren" keseluruhan, yang dengan sendirinya merupakan rangkaian waktux = (x1,x2, ... ,xhal)′ (dengan p = 7 jumlah periode waktu). Saya akan merujuk ini di bawah ini sebagai "memiliki tren yang sama."
Penulisanϕ = (ϕ1,ϕ2, ... ,ϕn)′ untuk kelipatan tersebut (dengan n = 10 jumlah deret waktu), matriks data kira-kira
Nilai eigen PCA (tanpa pemusatan rata-rata) adalah nilai eigen dari
karenaϕ′ϕ hanya angka. Menurut definisi, untuk nilai eigen apa punλ dan vektor eigen terkait β ,
dimana sekali lagi angkanyax′β dapat diringankan dengan vektor x . Membiarkanλ menjadi nilai eigen terbesar, jadi (kecuali semua deret waktu sama dengan nol di setiap waktu) λ > 0 .
Karena sisi kanan( 1 ) adalah kelipatan dari x dan sisi kiri adalah kelipatan bukan nol dariβ , vektor eigen β harus merupakan kelipatan dari x juga.
Dengan kata lain, ketika satu set deret waktu sesuai dengan ideal ini (bahwa semua adalah kelipatan dari deret waktu umum), maka
Ada nilai eigen positif unik di PCA.
Ada eigenspace yang sesuai unik yang direntang oleh seri waktu umumx .
Bahasa sehari-hari, (2) mengatakan "vektor eigen pertama sebanding dengan tren."
"Mean centering" di PCA berarti kolom berada di tengah. Karena kolom sesuai dengan waktu pengamatan dari rangkaian waktu, ini sama dengan menghapus tren waktu rata-rata dengan secara terpisah mengatur rata-rata semuan seri waktu ke nol di masing - masing hal waktu. Jadi, setiap deret waktuϕsayax diganti dengan residu (ϕsaya-ϕ¯) x dimana ϕ¯ adalah rata - rata dari ϕsaya . Tetapi ini adalah situasi yang sama seperti sebelumnya, hanya menggantiϕ oleh penyimpangan mereka dari nilai rata-rata mereka.
Sebaliknya, ketika ada nilai eigen unik yang sangat besar di PCA, kami dapat mempertahankan satu komponen utama dan mendekati matriks data asliX . Dengan demikian, analisis ini berisi mekanisme untuk memeriksa validitasnya:
Kesimpulan ini berlaku untuk PCA pada data mentah dan PCA pada (kolom) data terpusat rata-rata.
Izinkan saya memberi ilustrasi. Pada akhir posting ini adalahx dan ϕ secara kualitatif kemungkinan yang ditunjukkan dalam pertanyaan. Kode ini menghasilkan dua baris grafik: "scree plot" yang menunjukkan nilai eigen yang diurutkan dan plot data yang digunakan. Ini adalah satu set hasil.
R
kode untuk menghasilkan data acak sesuai dengan model yang digunakan di sini dan menganalisis PC pertama mereka. Nilai-nilaiData mentah muncul di kanan atas. Plot scree di kiri atas mengkonfirmasi nilai eigen terbesar mendominasi yang lainnya. Di atas data saya telah merencanakan vektor eigen pertama (komponen utama pertama) sebagai garis hitam tebal dan tren keseluruhan (rata-rata berdasarkan waktu) sebagai garis merah putus-putus. Mereka praktis bertepatan.
Data terpusat muncul di kanan bawah. Anda sekarang "tren" dalam data adalah tren dalam variabilitas daripada level. Meskipun plot scree jauh dari baik - nilai eigen terbesar tidak lagi mendominasi - namun vektor eigen pertama melakukan pekerjaan yang baik untuk melacak tren ini.
sumber
Derivatif data (~ perbedaan pertama) menghilangkan ketergantungan pointwise dalam data yang disebabkan oleh nonstasioneritas (lih. ARIMA). Yang kemudian Anda pulihkan adalah kira-kira sinyal diam yang stabil, yang saya kira SVD sudah pulih.
sumber