Proporsi varians yang dijelaskan dalam PCA dan LDA

Pertama saya akan memberikan penjelasan verbal, dan kemudian yang lebih teknis. Jawaban saya terdiri dari empat pengamatan:

Sebagaimana @ttnphns dijelaskan dalam komentar di atas, di PCA setiap komponen utama memiliki varian tertentu, yang semuanya bersama-sama menambahkan hingga 100% dari total varian. Untuk setiap komponen utama, rasio variansinya terhadap total varians disebut "proporsi varian yang dijelaskan". Ini sangat terkenal.
Di sisi lain, dalam LDA setiap "komponen diskriminan" memiliki "diskriminasi" (saya mengarang istilah ini!) Terkait dengan itu, dan mereka semua bersama-sama menambahkan hingga 100% dari "total diskriminasi". Jadi untuk setiap "komponen diskriminan", seseorang dapat mendefinisikan "proporsi diskriminasi yang dijelaskan". Saya kira "proporsi jejak" yang Anda maksudkan adalah persis seperti itu (lihat di bawah). Ini kurang dikenal, tetapi masih lumrah.
Namun, orang dapat melihat varians dari setiap komponen diskriminan, dan menghitung "proporsi varian" masing-masing. Ternyata, mereka akan menambahkan hingga sesuatu yang kurang dari 100%. Saya tidak berpikir bahwa saya pernah melihat ini dibahas di mana saja, yang merupakan alasan utama saya ingin memberikan jawaban yang panjang ini.
Kita juga dapat melangkah lebih jauh dan menghitung jumlah varian yang dijelaskan oleh masing-masing komponen LDA; ini akan menjadi lebih dari sekadar variansnya sendiri.

Membiarkan $\mathbf{T}$ menjadi total sebar matriks data (yaitu matriks kovarians tetapi tanpa dinormalisasi dengan jumlah titik data), $\mathbf{W}$ menjadi matriks pencar di dalam kelas, dan $\mathbf{B}$ menjadi matriks pencar antar-kelas. Lihat di sini untuk definisi . Dengan nyaman, $\mathbf{T}=\mathbf{W}+\mathbf{B}$ .

PCA melakukan dekomposisi eigen $\mathbf{T}$ , mengambil unit vektor eigen sebagai sumbu utama, dan proyeksi data pada vektor eigen sebagai komponen utama. Varian masing-masing komponen utama diberikan oleh nilai eigen yang sesuai. Semua nilai eigen dari $\mathbf{T}$ (Yang simetris dan pasti positif) adalah positif dan dijumlahkan ke $\mathrm{tr}(\mathbf{T})$ , yang dikenal sebagai varian total .

LDA melakukan dekomposisi eigen $\mathbf{W}^{-1} \mathbf{B}$ , mengambil vektor eigen unit non-ortogonal (!) sebagai sumbu diskriminan, dan proyeksi pada vektor eigen sebagai komponen diskriminan (istilah yang dibuat-buat). Untuk setiap komponen diskriminan, kita dapat menghitung rasio varian antar kelas $B$ dan varian dalam kelas $W$ , yaitu rasio signal-to-noise $B/W$ . Ternyata itu akan diberikan oleh nilai eigen yang sesuai $\mathbf{W}^{-1} \mathbf{B}$ (Lemma 1, lihat di bawah). Semua nilai eigen dari $\mathbf{W}^{-1} \mathbf{B}$ positif (Lemma 2) jadi jumlahkan ke angka positif $\mathrm{tr}(\mathbf{W}^{-1} \mathbf{B})$ mana yang bisa disebut rasio sinyal-to-noise total . Setiap komponen diskriminan memiliki proporsi tertentu, dan itulah, saya percaya, apa yang dimaksud dengan "proporsi jejak". Lihat jawaban ini oleh @ttnphns untuk diskusi serupa .

Menariknya, varian semua komponen diskriminan akan menambahkan hingga sesuatu yang lebih kecil dari total varian (bahkan jika jumlahnya $K$ kelas dalam kumpulan data lebih besar dari jumlah $N$ dimensi; karena hanya ada $K-1$ kapak diskriminan, mereka bahkan tidak akan membentuk dasar dalam kasus $K-1<N$ ). Ini adalah observasi non-sepele (Lemma 4) yang mengikuti dari fakta bahwa semua komponen diskriminan memiliki korelasi nol (Lemma 3). Yang berarti bahwa kita dapat menghitung proporsi varian yang biasa untuk setiap komponen diskriminan, tetapi jumlahnya akan kurang dari 100%.

Namun, saya enggan menyebut varian komponen ini sebagai "varian yang dijelaskan" (sebut saja "varian yang ditangkap"). Untuk setiap komponen LDA, seseorang dapat menghitung jumlah varians yang dapat dijelaskannya dalam data dengan mengembalikan data ke komponen ini; nilai ini secara umum akan lebih besar dari varians "ditangkap" komponen ini sendiri. Jika ada komponen yang cukup, maka bersama-sama varians mereka yang dijelaskan harus 100%. Lihat jawaban saya di sini untuk bagaimana menghitung varians yang dijelaskan dalam kasus umum: Analisis komponen utama "mundur": berapa banyak varians data yang dijelaskan oleh kombinasi linear dari variabel?

Berikut ini adalah ilustrasi menggunakan set data Iris (hanya pengukuran sepal!): PCA dan LDA pengukuran sepal dari set data Iris Garis solid tipis menunjukkan sumbu PCA (mereka ortogonal), garis putus-putus tebal menunjukkan sumbu LDA (non-ortogonal). Proporsi varians dijelaskan oleh sumbu PCA: $79\%$ dan $21\%$ . Proporsi rasio signal-to-noise dari sumbu LDA: $96\%$ dan $4\%$ . Proporsi varian yang ditangkap oleh sumbu LDA: $48\%$ dan $26\%$ (yaitu hanya $74\%$ bersama). Proporsi varians dijelaskan oleh sumbu LDA: $65\%$ dan $35\%$ .

\begin{array}{lcccc} LDA axis 1 & LDA axis 2 & PCA axis 1 & PCA axis 2 \\ Captured variance & 48 % & 26 % & 79 % & 21 % \\ Explained variance & 65 % & 35 % & 79 % & 21 % \\ Signal-to-noise ratio & 96 % & 4 % & - & - \end{array}

$\begin{array}{lcccc} & \text{LDA axis 1} & \text{LDA axis 2} & \text{PCA axis 1} & \text{PCA axis 2} \\ \text{Captured variance} & 48\% & 26\% & 79\% & 21\% \\ \text{Explained variance} & 65\% & 35\% & 79\% & 21\% \\ \text{Signal-to-noise ratio} & 96\% & 4\% & - & - \\ \end{array}$

Lemma 1. Vektor vektor $\mathbf{v}$ dari $\mathbf{W}^{-1} \mathbf{B}$ (atau, ekuivalen, vektor eigen umum dari masalah nilai eigen umum) $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$ ) adalah titik stasioner hasil bagi Rayleigh

\frac{v^{⊤} B v}{v^{⊤} W v} = \frac{B}{W}

$\frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{W}\mathbf{v}} = \frac{B}{W}$ (bedakan yang terakhir untuk melihatnya), dengan nilai yang sesuai dari hasil bagi Rayleigh yang memberikan nilai eigen

λ

$\lambda$ , QED.

Lemma 2. Nilai Eigen dari $\mathbf{W}^{-1} \mathbf{B} = \mathbf{W}^{-1/2} \mathbf{W}^{-1/2} \mathbf{B}$ sama dengan nilai eigen dari $\mathbf{W}^{-1/2} \mathbf{B} \mathbf{W}^{-1/2}$ (memang, kedua matriks ini serupa ). Yang terakhir adalah pasti-positif simetris, sehingga semua nilai eigennya positif.

Lemma 3. Perhatikan bahwa kovarians / korelasi antara komponen diskriminan adalah nol. Memang, vektor eigen berbeda $\mathbf{v}_1$ dan $\mathbf{v}_2$ masalah nilai eigen umum $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$ keduanya $\mathbf{B}$ - dan $\mathbf{W}$ -orthogonal ( lihat misalnya di sini ), dan begitu juga $\mathbf{T}$ -Reogonal juga (karena $\mathbf{T}=\mathbf{W}+\mathbf{B}$ ), yang artinya memiliki kovarian nol: $\mathbf{v}_1^\top \mathbf{T} \mathbf{v}_2=0$ .

Lemma 4. Kapak diskriminatif membentuk basis non-ortogonal $\mathbf{V}$ , di mana matriks kovarians $\mathbf{V}^\top\mathbf{T}\mathbf{V}$ diagonal. Dalam hal ini seseorang dapat membuktikan bahwa

t r (V^{⊤} T V) < t r (T),

$\mathrm{tr}(\mathbf{V}^\top\mathbf{T}\mathbf{V})<\mathrm{tr}(\mathbf{T}),$ QED.

amuba
sumber

+1. Banyak hal yang Anda diskusikan di sini dibahas, sedikit lebih padat, dalam jawaban saya . Saya telah menambahkan tautan ke jawaban Anda saat ini di dalam tubuh jawaban saya yang lama.

ttnphns

@ttnphns: Saya ingat jawaban Anda (memiliki +1 saya sejak dulu), tetapi tidak melihat ke sana ketika menulis jawaban ini, begitu banyak hal yang disajikan dengan sangat mirip, mungkin terlalu banyak. Alasan utama saya menulis jawaban ini, bagaimanapun, adalah untuk membahas "perbedaan yang dijelaskan" (dalam arti PCA) dari komponen LDA. Saya tidak yakin seberapa berguna itu dalam praktek, tetapi saya sering bertanya-tanya tentang hal itu sebelumnya, dan baru-baru ini berjuang untuk beberapa waktu untuk membuktikan ketidaksetaraan dari Lemma 4 yang pada akhirnya terbukti bagi saya di Math.SE.

amoeba

Perhatikan bahwa diagonal dari

V^{⊤} T V

$\mathbf{V}^\top\mathbf{T}\mathbf{V}$ adalah

λ + 1

$\lambda+1$ , penyebut untuk menghitung korelasi kanonik.

ttnphns

@ttnphns: Hmmm ... Saya pikir itu untuk setiap vektor eigen

v

$\mathbf{v}$ ,

B / W = \frac{v^{⊤} B v}{v^{⊤} W v} = λ

$B/W = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{W}\mathbf{v}} = \lambda$ dan

B / T = \frac{v^{⊤} B v}{v^{⊤} T v} = \frac{v^{⊤} B v}{(v^{⊤} B v + v^{⊤} W v)} = \frac{λ}{λ + 1},

$B/T = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{\mathbf{v}^\top\mathbf{T}\mathbf{v}} = \frac{\mathbf{v}^\top\mathbf{B}\mathbf{v}}{(\mathbf{v}^\top\mathbf{B}\mathbf{v}+\mathbf{v}^\top\mathbf{W}\mathbf{v})} = \frac{\lambda}{\lambda+1},$ seperti yang Anda katakan dalam jawaban tertaut Anda. Tetapi nilai

v^{⊤} T v

$\mathbf{v}^\top\mathbf{T}\mathbf{v}$ (di luar rasio apa pun) tidak dapat benar-benar diekspresikan dengan

λ

$\lambda$ hanya.

amoeba

Tampak bagi saya bahwa vektor eigen dari diskriminan yang diberikan berisi informasi

B / W

$B/W$ untuk diskriminan itu; ketika kita mengkalibrasi dengan

T

$\bf T$ yang membuat kovarian antar variabel, kita bisa sampai pada nilai eigen dari diskriminan. Demikian informasi pada

B / W

$B/W$ Ini disimpan dalam vektor eigen, dan itu "standar" ke bentuk yang sesuai dengan tidak ada korelasi antara variabel.

ttnphns

Proporsi varians yang dijelaskan dalam PCA dan LDA

Jawaban: