Mengapa semua komponen PLS bersama-sama hanya menjelaskan sebagian dari varian data asli?

Saya memiliki dataset yang terdiri dari 10 variabel. Saya menjalankan partial least square (PLS) untuk memprediksi variabel respon tunggal oleh 10 variabel ini, mengekstraksi 10 komponen PLS, dan kemudian menghitung varians dari masing-masing komponen. Pada data asli saya mengambil jumlah varians dari semua variabel yaitu 702.

Kemudian saya membagi varian masing-masing komponen PLS dengan jumlah ini untuk mendapatkan persentase perbedaan dijelaskan oleh PLS, dan secara mengejutkan semua komponen bersama-sama hanya menjelaskan 44% dari varian asli.

Apa penjelasannya? Bukankah seharusnya 100%?

regression pca covariance-matrix partial-least-squares Ress
sumber

Seperti yang saya tahu di sisi respons (y) apa yang menentukan jumlah komponen PLS adalah jumlah minimum pengamatan. saya punya 20 pengamatan. Tetapi di sisi lain saya hanya memiliki 10 variabel independen yang membuat saya terbatas pada 10 PLS. Pertanyaan saya adalah apa rumus umum untuk menghitung perbedaan yang dijelaskan oleh masing-masing komponen (PLS atau PCA).

Ress

mathworks.com/help/stats/plsregress.html contoh ini hanya memiliki satu variabel di sisi Y dan menghitung 10 komponen.

Ress

Jumlah varian semua komponen PLS biasanya kurang dari 100%.

Ada banyak varian partial least square (PLS). Apa yang Anda gunakan di sini, adalah regresi PLS dari variabel respons univariat ke beberapa variabel ; Algoritma ini secara tradisional dikenal sebagai PLS1 (sebagai lawan dari varian lain, lihat Rosipal & Kramer, 2006, Tinjauan Umum dan Kemajuan-kemajuan Terkini di dalam Kotak Kuantitatif Sebagian untuk gambaran singkat yang ringkas). PLS1 kemudian terbukti setara dengan formulasi yang lebih elegan yang disebut SIMPLS (lihat referensi ke paywalled Jong 1988 di Rosipal & Kramer). Tampilan yang disediakan oleh SIMPLS membantu untuk memahami apa yang sedang terjadi di PLS1. $\mathbf y$ $\mathbf X$

Ternyata yang dilakukan PLS1 adalah menemukan urutan proyeksi linear , sedemikian rupa sehingga: $\mathbf t_i = \mathbf X \mathbf w_i$

Kesesuaian antara dan maksimal; $\mathbf y$ $\mathbf t_i$
Semua vektor berat memiliki panjang satuan, ; $\|\mathbf w_i\|=1$
Dua komponen PLS (alias vektor skor) dan tidak berkorelasi. $\mathbf t_i$ $\mathbf t_j$

Perhatikan bahwa vektor bobot tidak harus (dan tidak) ortogonal.

Ini berarti bahwa jika terdiri dari variabel dan Anda menemukan komponen PLS, maka Anda menemukan basis non-ortogonal dengan proyeksi tidak berkorelasi pada vektor basis. Satu matematis dapat membuktikan bahwa dalam situasi seperti jumlah varians dari semua proyeksi ini akan kurang maka varians total . Mereka akan sama jika vektor bobotnya ortogonal (seperti misalnya dalam PCA), tetapi dalam PLS ini tidak demikian. $\mathbf X$ $k=10$ $10$ $\mathbf X$

Saya tidak tahu ada buku teks atau kertas yang secara eksplisit membahas masalah ini, tetapi saya sebelumnya telah menjelaskannya dalam konteks analisis diskriminan linier (LDA) yang juga menghasilkan sejumlah proyeksi tidak berkorelasi pada vektor bobot unit non-ortogonal, lihat di sini : Proporsi varian yang dijelaskan dalam PCA dan LDA .

amuba
sumber

Terima kasih dan ya itu masuk akal. Saya tidak tahu bahwa vektor pemuatan (berat) tidak ortogonal. Jadi itu tidak menangkap varian maksimum X. Mengikuti contoh matlab, dapatkah Anda membantu saya bagaimana secara matematis saya bisa mendapatkan nilai "PCTVAR" ?.

Ress

Saya tidak yakin, tetapi saya bisa memikirkannya. Apakah kolom pertama dalam PCTVAR(persentase perbedaan dijelaskan dalam X) tidak setuju dengan perhitungan Anda? Atau apakah Anda bertanya tentang kolom kedua (persentase perbedaan dijelaskan dalam y)? Secara umum, jika Anda ingin masuk ke matematika PLS, maka saya sarankan Anda mulai membaca koran oleh Rosipal & Kramer dan ikuti tautannya.

amoeba

Mengapa semua komponen PLS bersama-sama hanya menjelaskan sebagian dari varian data asli?

Jawaban:

Jumlah varian semua komponen PLS biasanya kurang dari 100%.