Secara umum, apa yang dimaksud dengan mengatakan bahwa fraksi varian dalam analisis seperti PCA dijelaskan oleh komponen utama pertama? Dapatkah seseorang menjelaskan hal ini secara intuitif tetapi juga memberikan definisi matematis yang tepat tentang apa yang dimaksud "varians dijelaskan" dalam hal analisis komponen utama (PCA)?
Untuk regresi linier sederhana, r-kuadrat dari garis kecocokan terbaik selalu digambarkan sebagai proporsi dari varians yang dijelaskan, tetapi saya tidak yakin apa yang membuat itu. Apakah proporsi varian di sini hanya perpanjangan deviasi poin dari garis paling cocok?
Jawaban:
Dalam kasus PCA, "varians" berarti variatif sumatif atau variabilitas multivariat atau variabilitas keseluruhan atau variabilitas total . Di bawah ini adalah matriks kovarians dari 3 variabel. Variansnya ada pada diagonal, dan jumlah dari 3 nilai (3.448) adalah keseluruhan variabilitas.
Sekarang, PCA menggantikan variabel asli dengan variabel baru, yang disebut komponen utama, yang bersifat ortogonal (yaitu mereka memiliki nol kovariat) dan memiliki varian (disebut nilai eigen) dalam urutan menurun. Jadi, matriks kovarians antara komponen utama yang diekstraksi dari data di atas adalah ini:
Perhatikan bahwa jumlah diagonal masih 3,448, yang mengatakan bahwa ketiga komponen tersebut bertanggung jawab atas semua variabilitas multivariat. Komponen utama 1 menyumbang atau "menjelaskan" 1,651 / 3,448 = 47,9% dari keseluruhan variabilitas; yang ke-2 menjelaskan 1.220 / 3.448 = 35,4% dari itu; yang ke-3 menjelaskan .577 / 3.448 = 16.7% dari itu.
Jadi, apa yang mereka maksudkan ketika mereka mengatakan bahwa " PCA memaksimalkan varians " atau " PCA menjelaskan varian maksimal "? Tentu saja, itu tidak menemukan perbedaan terbesar di antara tiga nilai
1.343730519 .619205620 1.485549631
, tidak. PCA menemukan, dalam ruang data, dimensi (arah) dengan varian terbesar dari keseluruhan varian1.343730519+.619205620+1.485549631 = 3.448
. Varians terbesar itu adalah1.651354285
. Kemudian ia menemukan dimensi varian terbesar kedua, ortogonal ke varian pertama, dari3.448-1.651354285
varian keseluruhan yang tersisa . Dimensi kedua itu adalah1.220288343
varian. Dan seterusnya. Dimensi terakhir yang tersisa adalah.576843142
varians. Lihat juga "Pt3" di sini dan jawabannya di sini menjelaskan bagaimana hal itu dilakukan secara lebih rinci.Secara matematis, PCA dilakukan melalui fungsi aljabar linier yang disebut dekomposisi eigen atau dekomposisi svd. Fungsi-fungsi ini akan mengembalikan Anda semua nilai eigen
1.651354285 1.220288343 .576843142
(dan vektor eigen yang sesuai) sekaligus ( lihat , lihat ).sumber
@ttnphns telah memberikan jawaban yang bagus, mungkin saya bisa menambahkan beberapa poin. Pertama, saya ingin menunjukkan bahwa ada pertanyaan yang relevan pada CV, dengan jawaban yang sangat kuat — Anda pasti ingin memeriksanya. Di bagian selanjutnya, saya akan merujuk ke plot yang ditunjukkan dalam jawaban itu.
Ketiga plot menampilkan data yang sama. Perhatikan bahwa ada variabilitas dalam data baik secara vertikal maupun horizontal, tetapi kita dapat menganggap sebagian besar variabilitas sebagai diagonal . Dalam plot ketiga, garis diagonal hitam yang panjang itu adalah vektor eigen pertama (atau komponen prinsip pertama), dan panjang komponen prinsip itu (penyebaran data di sepanjang garis itu - bukan panjang sebenarnya dari garis itu sendiri, yang hanya digambar di plot) adalah nilai eigen pertama--itu jumlah varians yang diperhitungkan oleh komponen prinsip pertama. Jika Anda menjumlahkan panjang itu dengan panjang komponen prinsip kedua (yang merupakan lebar dari penyebaran data secara ortogonal dari garis diagonal itu), dan kemudian membagi salah satu dari nilai eigen dengan total itu, Anda akan mendapatkan persen varians yang diperhitungkan oleh komponen prinsip yang sesuai.
Di sisi lain, untuk memahami persentase varians yang diperhitungkan dalam regresi, Anda dapat melihat plot teratas. Dalam hal itu, garis merah adalah garis regresi, atau himpunan nilai prediksi dari model. Varians yang dijelaskan dapat dipahami sebagai rasio penyebaran vertikal dari garis regresi (yaitu, dari titik terendah pada garis ke titik tertinggi pada garis) ke penyebaran vertikal data (yaitu, dari titik data terendah) ke titik data tertinggi). Tentu saja, itu hanya ide yang longgar, karena secara harfiah itu adalah rentang, bukan varian, tetapi itu akan membantu Anda mendapatkan intinya.
Pastikan untuk membaca pertanyaannya. Dan, meskipun saya merujuk pada jawaban teratas, beberapa jawaban yang diberikan sangat bagus. Perlu waktu Anda untuk membaca semuanya.
sumber
Ada jawaban matematis yang sangat sederhana, langsung, dan tepat untuk pertanyaan awal.
Dalam pengertian ini, Anda dapat mengartikan PC pertama sebagai pemaksimal "varians dijelaskan," atau lebih tepatnya, pemaksimator "total varians dijelaskan."
Untuk referensi literatur asli dan ekstensi, lihat
Westfall, PH, Arias, AL, dan Fulton, LV (2017). Pengajaran Komponen Utama Menggunakan Korelasi, Penelitian Perilaku Multivariat, 52, 648-660.
sumber
sumber