Satu kata jawaban: Keduanya.
Mari kita mulai dengan mendefinisikan norma-norma. Untuk matriks X , operator 2 -norm didefinisikan sebagai dan norma Frobenius sebagai‖X‖F=√
∥ X∥2= s u p ∥ Xv ∥2∥ v ∥2= m a x ( ssaya)
mana
siadalah nilai singular
X, yaitu elemen diagonal
Sdalam dekomposisi nilai singular
X=USV⊤.
∥ X∥F= ∑saya jX2saya j------√= t r ( X⊤X) = Σ s2saya-----√,
ssayaXSX= USV⊤
PCA diberikan oleh dekomposisi nilai singular yang sama ketika data dipusatkan. merupakan komponen utama, V adalah sumbu utama, yaitu vektor eigen dari matriks kovarians, dan rekonstruksi X dengan hanya k komponen utama yang sesuai dengan k nilai tunggal terbesar diberikan oleh X k = U k S k V ⊤ k .USVXkkXk=UkSkV⊤k
The Eckart-Young teorema mengatakan bahwa adalah matriks meminimalkan norma kesalahan rekonstruksi ‖ X - Sebuah ‖ antara semua matriks A pangkat k . Ini berlaku untuk keduanya, norma Frobenius dan operator 2 -norm. Seperti yang ditunjukkan oleh @ cardinal dalam komentar, itu pertama kali dibuktikan oleh Schmidt (dari ketenaran Gram-Schmidt) pada tahun 1907 untuk kasus Frobenius. Itu kemudian ditemukan kembali oleh Eckart dan Young pada tahun 1936 dan sekarang sebagian besar dikaitkan dengan nama mereka. Mirsky menggeneralisasi teorema pada tahun 1958 untuk semua norma yang tidak berubah di bawah transformasi kesatuan, dan ini termasuk norma 2 operator.Xk∥ X- A ∥SEBUAHk2
Teorema ini kadang-kadang disebut teorema Eckart-Young-Mirsky. Stewart (1993) menyebutnya teorema aproksimasi Schmidt. Saya bahkan pernah melihatnya disebut teorema Schmidt-Eckart-Young-Mirsky.
Bukti untuk operator -norm2
Biarkan menjadi peringkat penuh n . Karena A adalah peringkat k , ruang nolnya memiliki dimensi n - k . Ruang yang direntang oleh k + 1 vektor X tunggal yang sesuai dengan nilai singular terbesar memiliki dimensi k + 1 . Jadi kedua ruang ini harus bersilangan. Biarkan w menjadi vektor satuan dari persimpangan. Kemudian kita mendapatkan:
‖ X - A ‖ 2 2 ≥ ‖ ( X - A ) w ‖ 2XnSEBUAHkn - kk + 1Xk + 1wQED.
∥ X- A ∥22≥ ∥ ( X- A ) w ∥22= ∥ Xw ∥22= ∑i = 1k + 1s2saya( v⊤sayaw )2≥ s2k + 1= ∥ X- Xk∥22,
Bukti untuk norma Frobenius
Kami ingin mencari matriks dari peringkat k yang meminimalkan ‖ X - A ‖ 2 F . Kita bisa pd A = B W ⊤ , di mana W memiliki k ortonormal kolom. Meminimalkan ‖ X - B W ⊤ ‖ 2 untuk tetap W adalah masalah regresi dengan solusi B = X W . Memasukkannya, kita melihat bahwa kita sekarang perlu meminimalkan ‖ X - X W W ⊤SEBUAHk∥X−A∥2FA=BW⊤Wk∥X−BW⊤∥2WB=XW mana Σ adalah matriks kovarian X , yaitu Σ = X ⊤ X / ( n - 1 ) . Berarti bahwa kesalahan rekonstruksi ini diminimalkan dengan mengambil sebagai kolom W beberapa k ortonormal vektor memaksimalkan total varian dari proyeksi.
∥X−XWW⊤∥2=∥X∥2−∥XWW⊤∥2=const−tr(WW⊤X⊤XWW⊤)=const−const⋅tr(W⊤ΣW),
ΣXΣ=X⊤X/(n−1)Wk
kX=USV⊤Σ=VS2V⊤/(n−1)=VΛV⊤R=V⊤W
tr(W⊤ΣW)=tr(R⊤ΛR)=∑iλi∑jR2ij≤∑i=1kλk,
with maximum achieved when
W=Vk. The theorem then follows immediately.
See the following three related threads:
Earlier attempt of a proof for Frobenius norm
This proof I found somewhere online but it is wrong (contains a gap), as explained by @cardinal in the comments.
Frobenius norm is invariant under unitary transformations, because they do not change the singular values. So we get:
∥X−A∥F=∥USV⊤−A∥=∥S−U⊤AV∥=∥S−B∥,
where
B=U⊤AV. Continuing:
∥X−A∥F=∑ij(Sij−Bij)2=∑i(si−Bii)2+∑i≠jB2ij.
This is minimized when all off-diagonal elements of
B are zero and all
k diagonal terms cancel out the
k largest singular values
si [gap here: this is not obvious], i.e.
Boptimal=Sk and hence
Aoptimal=UkSkV⊤k.