Christopher Bishop menulis dalam bukunya Pattern Recognition dan Machine Learning sebagai bukti, bahwa setiap komponen utama berturut-turut memaksimalkan varian proyeksi ke satu dimensi, setelah data diproyeksikan ke ruang ortogonal ke komponen yang sebelumnya dipilih. Lainnya menunjukkan bukti serupa.
Namun, ini hanya membuktikan bahwa setiap komponen berturut-turut adalah proyeksi terbaik untuk satu dimensi, dalam hal memaksimalkan varians. Mengapa ini menyiratkan, bahwa varian dari proyeksi untuk mengatakan 5 dimensi dimaksimalkan memilih komponen seperti pertama?
Jawaban:
Apa yang dipahami oleh varians dalam beberapa dimensi ("total variance") hanyalah sejumlah varian di setiap dimensi. Secara matematis, ini adalah jejak dari matriks kovarians: jejak hanyalah jumlah dari semua elemen diagonal. Definisi ini memiliki berbagai sifat yang bagus, misalnya jejak tidak berubah di bawah transformasi linear ortogonal, yang berarti bahwa jika Anda memutar sumbu koordinat Anda, varian total tetap sama.
Apa yang dibuktikan dalam buku Bishop (bagian 12.1.1), adalah bahwa vektor eigen terkemuka dari matriks kovarians memberikan arah varian maksimal. Vektor eigen kedua memberikan arah varians maksimal di bawah batasan tambahan bahwa itu harus ortogonal ke vektor eigen pertama, dll. (Saya percaya ini merupakan Latihan 12.1). Jika tujuannya adalah untuk memaksimalkan varians total dalam subruang 2D, maka prosedur ini adalah maksimalisasi serakah: pertama pilih satu sumbu yang memaksimalkan varians, lalu yang lain.
Pertanyaan Anda adalah: mengapa prosedur serakah ini mencapai maksimum global?
Berikut adalah argumen yang bagus yang @whuber sarankan dalam komentar. Mari kita selaraskan sistem koordinat dengan sumbu PCA. Matriks kovarians menjadi diagonal: . Untuk kesederhanaan kami akan mempertimbangkan kasus 2D yang sama, yaitu apa bidang dengan varians total maksimal? Kami ingin membuktikan bahwa itu adalah bidang yang diberikan oleh dua vektor basis pertama (dengan varian total ).Σ=diag(λi) λ1+λ2
Pertimbangkan pesawat yang direntang oleh dua vektor ortogonal dan . Varians total dalam pesawat ini adalahJadi ini adalah kombinasi linear dari nilai eigen dengan koefisien yang semuanya positif, tidak melebihi (lihat di bawah), dan jumlah ke . Jika demikian, maka hampir jelas bahwa maksimum tercapai di .u v
Hanya dibiarkan menunjukkan bahwa koefisien tidak boleh melebihi . Perhatikan bahwa , di mana adalah vektor basis -th. Kuantitas ini adalah panjang kuadrat dari proyeksi pada bidang yang direntang oleh dan . Oleh karena itu harus lebih kecil dari panjang kuadrat dari yang sama dengan , QED.1 u2k+v2k=(u⋅k)2+(v⋅k)2 k k k u v k |k|2=1
Lihat juga jawaban @ cardinal untuk Apa fungsi objektif PCA? (Ini mengikuti logika yang sama).
sumber
Jika Anda memiliki variabel acak tidak berkorelasi diurutkan dalam urutan varians mereka dan diminta untuk memilih dari mereka sedemikian rupa sehingga varian jumlah mereka dimaksimalkan, apakah Anda setuju bahwa pendekatan rakus memilih pertama akan mencapai itu?N k k
Data yang diproyeksikan ke vektor eigen dari matriks kovariannya pada dasarnya adalah kolom yang tidak berkorelasi dan variansnya sama dengan nilai eigen masing-masing.N
Agar intuisi menjadi lebih jelas, kita perlu menghubungkan maksimalisasi varians dengan menghitung vektor eigen dari matriks kovarians dengan nilai eigen terbesar, dan menghubungkan proyeksi ortogonal untuk menghilangkan korelasi.
Relasi kedua jelas bagi saya karena koefisien korelasi antara dua (nol berarti) vektor sebanding dengan produk dalam mereka.
Hubungan antara memaksimalkan varians dan dekomposisi eigen dari matriks kovarians adalah sebagai berikut.
Asumsikan bahwa adalah matriks data setelah memusatkan kolom. Kita perlu menemukan arah varians maksimum. Untuk setiap vektor satuan , varians setelah memproyeksikan sepanjang adalahD v v
yang dimaksimalkan jika adalah vektor eigen dari sesuai dengan nilai eigen terbesar.v Cov(D)
sumber