Saya memiliki dataset yang terdiri dari 10 variabel. Saya menjalankan partial least square (PLS) untuk memprediksi variabel respon tunggal oleh 10 variabel ini, mengekstraksi 10 komponen PLS, dan kemudian menghitung varians dari masing-masing komponen. Pada data asli saya mengambil jumlah varians dari semua variabel yaitu 702.
Kemudian saya membagi varian masing-masing komponen PLS dengan jumlah ini untuk mendapatkan persentase perbedaan dijelaskan oleh PLS, dan secara mengejutkan semua komponen bersama-sama hanya menjelaskan 44% dari varian asli.
Apa penjelasannya? Bukankah seharusnya 100%?
Jawaban:
Jumlah varian semua komponen PLS biasanya kurang dari 100%.
Ada banyak varian partial least square (PLS). Apa yang Anda gunakan di sini, adalah regresi PLS dari variabel respons univariat ke beberapa variabel ; Algoritma ini secara tradisional dikenal sebagai PLS1 (sebagai lawan dari varian lain, lihat Rosipal & Kramer, 2006, Tinjauan Umum dan Kemajuan-kemajuan Terkini di dalam Kotak Kuantitatif Sebagian untuk gambaran singkat yang ringkas). PLS1 kemudian terbukti setara dengan formulasi yang lebih elegan yang disebut SIMPLS (lihat referensi ke paywalled Jong 1988 di Rosipal & Kramer). Tampilan yang disediakan oleh SIMPLS membantu untuk memahami apa yang sedang terjadi di PLS1.y X
Ternyata yang dilakukan PLS1 adalah menemukan urutan proyeksi linear , sedemikian rupa sehingga:ti=Xwi
Perhatikan bahwa vektor bobot tidak harus (dan tidak) ortogonal.
Ini berarti bahwa jika terdiri dari variabel dan Anda menemukan komponen PLS, maka Anda menemukan basis non-ortogonal dengan proyeksi tidak berkorelasi pada vektor basis. Satu matematis dapat membuktikan bahwa dalam situasi seperti jumlah varians dari semua proyeksi ini akan kurang maka varians total . Mereka akan sama jika vektor bobotnya ortogonal (seperti misalnya dalam PCA), tetapi dalam PLS ini tidak demikian.X k=10 10 X
Saya tidak tahu ada buku teks atau kertas yang secara eksplisit membahas masalah ini, tetapi saya sebelumnya telah menjelaskannya dalam konteks analisis diskriminan linier (LDA) yang juga menghasilkan sejumlah proyeksi tidak berkorelasi pada vektor bobot unit non-ortogonal, lihat di sini : Proporsi varian yang dijelaskan dalam PCA dan LDA .
sumber
PCTVAR
(persentase perbedaan dijelaskan dalam X) tidak setuju dengan perhitungan Anda? Atau apakah Anda bertanya tentang kolom kedua (persentase perbedaan dijelaskan dalam y)? Secara umum, jika Anda ingin masuk ke matematika PLS, maka saya sarankan Anda mulai membaca koran oleh Rosipal & Kramer dan ikuti tautannya.