Fungsi objektif dari Principal Component Analysis (PCA) adalah meminimalkan kesalahan rekonstruksi dalam norma L2 (lihat bagian 2.12 di sini . Pandangan lain sedang mencoba untuk memaksimalkan varians pada proyeksi. Kami juga memiliki posting yang sangat baik di sini: Apa fungsi tujuan PCA ? ).
Pertanyaan saya adalah apakah optimasi PCA cembung? (Saya menemukan beberapa diskusi di sini , tetapi berharap seseorang dapat memberikan bukti yang bagus di sini di CV).
machine-learning
pca
optimization
convex
Haitao Du
sumber
sumber
Jawaban:
Tidak, formulasi PCA yang biasa bukan masalah cembung. Tetapi mereka dapat ditransformasikan menjadi masalah optimisasi cembung.
Wawasan dan kesenangan dari ini mengikuti dan memvisualisasikan urutan transformasi daripada hanya mendapatkan jawaban: itu terletak pada perjalanan, bukan tujuan. Langkah utama dalam perjalanan ini adalah
Dapatkan ungkapan sederhana untuk fungsi tujuan.
Perbesar domainnya, yang bukan cembung, menjadi domain yang cembung.
Ubah tujuan, yang bukan cembung, menjadi sesuatu yang, dengan cara yang jelas tidak mengubah titik di mana ia mencapai nilai optimalnya.
Jika Anda terus mencermati, Anda dapat melihat pengganda SVD dan Lagrange mengintai - tetapi mereka hanya tontonan, ada untuk pemandangan indah, dan saya tidak akan mengomentarinya lebih lanjut.
Formulasi memaksimalkan-varians standar PCA (atau setidaknya langkah kuncinya) adalah
di mana matriks A adalah matriks simetris, positif-semidefinit yang dibangun dari data (biasanya jumlah kuadrat dan matriks produknya, matriks kovariansnya, atau matriks korelasinya).n×n A
(Dengan kata lain, kita dapat mencoba memaksimalkan objektif yang tidak dibatasi . Tidak hanya ini ekspresi yang lebih buruk - ini bukan lagi fungsi kuadrat - tetapi grafik kasus khusus akan dengan cepat menunjukkan itu bukan fungsi cembung) , salah satu. Biasanya orang mengamati fungsi ini invarian di bawah rescalings x → λ x dan kemudian menguranginya ke formulasi terbatas ( ∗ ) .)x′Ax/x′x x→λx (∗)
Setiap masalah optimasi dapat dirumuskan secara abstrak sebagai
Ingat bahwa masalah pengoptimalan adalah cembung saat menikmati dua properti terpisah:
The domain cembung.X⊂Rn Ini dapat dirumuskan dengan banyak cara. Salah satunya adalah bahwa setiap kali dan y ∈ X dan 0 ≤ λ ≤ 1 , λ x + ( 1 - λ ) y ∈ X juga. Geometris: setiap kali dua titik akhir dari kebohongan segmen garis di X , seluruh kebohongan segmen di X .x∈X y∈X 0≤λ≤1 λx+(1−λ)y∈X X X
The Fungsi adalah cembung.f Ini juga dapat dirumuskan dengan banyak cara. Salah satunya adalah bahwa setiap kali dan y ∈ X dan 0 ≤ λ ≤ 1 , f ( λ x + ( 1 - λ ) y ) ≥ λ f ( x ) + ( 1 - λ ) f ( y ) . (Kami membutuhkan Xx∈X y∈X 0≤λ≤1
Pola dasar dari fungsi cembung adalah lokal di mana-mana parabola dengan koefisien terkemuka non-positif: pada setiap segmen garis dapat dinyatakan dalam bentuk dengan a ≤ 0.y→ay2+by+c a≤0.
Kesulitan dengan adalah bahwa X adalah satuan bola S n - 1 ⊂ R n , yang jelas-jelas bukan cembung.(∗) X Sn−1⊂Rn Namun, kami dapat memodifikasi masalah ini dengan memasukkan vektor yang lebih kecil. Itu karena ketika kita skala dengan faktor λ , f dikalikan dengan λ 2 . Ketika 0 < x ′ x < 1 , kita dapat menskalakan x hingga satuan panjang dengan mengalikannya dengan λ = 1 / √x λ f λ2 0<x′x<1 x , dengan demikian meningkatkanftetapi tetap dalam bola satuanDn={x∈ R n∣x′x≤1}. Karena itu marilah kita merumuskan kembali(∗)sebagaiλ=1/x′x−−−√>1 f Dn={x∈Rn∣x′x≤1} (∗)
Domainnya adalah yang jelas-jelas cembung, jadi kita setengah jalan. Masih mempertimbangkan cembungnya grafik f .X=Dn f
Cara yang baik untuk memikirkan masalah - bahkan jika Anda tidak bermaksud melakukan perhitungan yang sesuai - adalah dalam hal Teorema Spektral.(∗∗) Ia mengatakan bahwa dengan cara transformasi ortogonal , Anda dapat menemukan setidaknya satu dasar R n di mana A adalah diagonal: yaitu,P Rn A
sumber
Tidak.
Meskipun normalnya cembung, set di mana ia dioptimalkan adalah nonconvex.
Sebuah relaksasi cembung masalah PCA ini disebut Convex Rendah Ranking Pendekatan
Anda dapat melihat Pembelajaran Statistik dengan Sparsity , bab 6 (dekomposisi matriks) untuk detailnya.
Jika Anda tertarik pada masalah yang lebih umum dan bagaimana hubungannya dengan kecemburuan, lihat Generalized Low Rank Models .
sumber
Penafian: Jawaban sebelumnya melakukan pekerjaan yang cukup baik untuk menjelaskan bagaimana PCA dalam formulasi aslinya adalah non-cembung tetapi dapat dikonversi ke masalah optimasi cembung. Jawaban saya hanya ditujukan untuk jiwa-jiwa miskin (seperti saya) yang tidak begitu akrab dengan jargon Unit Spheres dan SVD - yang, baik, baik untuk diketahui.
Sumber saya adalah catatan kuliah ini oleh Prof. Tibshirani
Untuk masalah optimasi yang harus diselesaikan dengan teknik optimasi cembung, ada dua prasyarat.
Sebagian besar formulasi PCA melibatkan kendala pada peringkat matriks.
sumber