SVD dari matriks data (PCA) setelah dihaluskan

8

Katakanlah saya memiliki matriks data terpusat dengan SVD .n×mAA=UΣVT

Misalnya, kolom (pengukuran) yang spektra dengan frekuensi yang berbeda. Matriks dipusatkan sehingga baris-baris matriks dikurangi rata-ratanya. Ini untuk menafsirkan vektor singular kiri sebagai komponen utama.m=50n=100

Saya tertarik memahami bagaimana perubahan SVD ketika saya memuluskan setiap vektor kolom. Misalnya, mari kita menghaluskan setiap kolom 100x1 dengan kernel sederhana seperti [1/3, 2/3, 1/3].

S=[23131323131323131323131323131323]

Jadi matriks data baru adalah dan memiliki beberapa SVD .A=SAA=UΣVT

Pikiran pertama saya adalah bahwa karena , saya harus mengharapkan vektor akan dihaluskan seperti vektor .SA=SUΣVTUiAi

Persamaan pertama ini terlihat seperti adalah vektor eigen dari :(SU)iAAT

SA(SA)T=SUΣΣTUTST

Tapi saya tidak yakin tentang ini selanjutnya jika valid untuk mengatakan bahwa adalah vektor eigen dari :ViATA

(SA)TSA=VΣTUTSTSUΣVT

Ketika saya membandingkan SVD dan numerik, vektor singular kiri bukan yang saya harapkan, , tetapi mereka memiliki penampilan yang dihaluskan.AAUSU

Adakah yang bisa membantu saya menghubungkan dan SVD setelah transformasi sederhana ini?UΣVTUΣVT

andy
sumber

Jawaban:

8

Mengapa pikiran pertama Anda menyesatkan Anda:

Ketika Anda mengambil SVD dari sebuah matriks, dan adalah kesatuan (ortogonal). Jadi, sementara memang benar bahwa , itu bukan (umumnya) SVD dari . Hanya jika adalah kesatuan (yang dalam hal matriks penghalusan, itu tidak) apakah benar bahwa .UVSA=SUΣVTSASU=SU

Apakah ada cara simbolik yang elegan untuk menghubungkan kedua SVD? Saya tidak dapat menemukannya. Namun, matriks smoothing Anda adalah matriks Toeplitz. Mungkin saja matriks semacam itu memiliki beberapa sifat khusus yang mungkin menghasilkan analisis yang lebih bermanfaat. Jika Anda menemukan sesuatu, silakan bagikan dengan kami semua.

Kasus smoothing ekstrem:

Salah satu cara untuk berpikir tentang smoothing adalah kontinum dari no smoothing ke ekstrim di mana kita menghaluskan setiap kolom ke nilai rata-rata. Sekarang, dalam kasus ekstrim itu, matriks akan memiliki peringkat 1, dan hanya akan ada satu nilai singular bukan nol. Mari kita lihat SVD:

[μ1μ2...μm]=[μμ...]=1μT=1n[μn]μTμ

Persamaan terakhir mewakili SVD terpotong. Perhatikan bahwa vektor kiri dan kanan memiliki panjang 1. Anda dapat memperluas ke dalam matriks ortogonal. Demikian pula untuk . Kemudian hanya nol pad matriks tengah, dan Anda punya SVD penuh.1nμμ

Smoothing menengah

Agaknya Anda tidak akan melakukan smoothing ekstrem seperti itu. Jadi, apa artinya ini bagi Anda? Saat kami memperluas penghalusan, spektrum secara bertahap mengecil menjadi satu nilai. Misalnya, dalam simulasi saya *:

Spektrum Normal Spectrum Ortho

Seperti yang disarankan oleh derivasi di atas, akan mendekati 1-vektor normed, dan akan mendekati vektor-rata normed. Tetapi bagaimana dengan vektor lainnya?U1V1

Karena nilai singular yang sesuai menyusut, dan akan semakin bervariasi hingga menjadi pilihan yang sewenang-wenang untuk basis subruang ortogonal untuk dan . Dengan kata lain, itu hanya akan menjadi kebisingan.UiViU1V1

Jika Anda memerlukan intuisi untuk alasan mengapa mereka "hanya berisik", pertimbangkan bahwa adalah jumlah angka dua dari pasangan: . Kami dapat sepenuhnya mengubah arah dan , dan itu hanya akan memengaruhi entri kurang dari .SAσiUiViTUiViSAσi

Visualisasi lain

Berikut cara lain untuk melihat smoothing kolom. Bayangkan setiap baris dalam matriks sebagai titik di -space. Saat kami menghaluskan kolom, setiap titik akan semakin dekat ke titik sebelumnya dan berikutnya. Secara keseluruhan, awan titik menyusut †:m

Cloud titik baris

Semoga ini membantu!

[*]: Saya mendefinisikan keluarga smoothers yang semakin luas. Secara kasar, saya mengambil kernel [1/4, 1/2, 1/4], melilitkannya kali, memotongnya ke dimensi , dan menormalkannya jadi 1. Kemudian saya membuat grafik smoothing progresif dari orthogonal acak dan matriks normal acak.zd

[†]: Smoothers dihasilkan dengan cara yang sama. dikonstruksikan sebagai serangkaian titik dalam -ruang yang terlihat menarik.A2

Joe Pete yang kekar
sumber