Beberapa waktu yang lalu seorang pengguna di milis R-help bertanya tentang kesehatan menggunakan skor PCA dalam suatu regresi. Pengguna mencoba menggunakan beberapa skor PC untuk menjelaskan variasi di PC lain (lihat diskusi lengkap di sini ). Jawabannya adalah tidak, ini tidak masuk akal karena PC saling orthogonal.
Adakah yang bisa menjelaskan dengan lebih terperinci mengapa demikian?
regression
pca
Roman Luštrik
sumber
sumber
r
tag dan apa yang Anda maksud dengan "mengapa demikian?" PC tidak berkorelasi, yaitu mereka ortogonal, aditif, Anda tidak dapat memprediksi satu PC dengan yang lain. Apakah Anda mencari formula?Jawaban:
Komponen utama adalah kombinasi linear tertimbang dari semua faktor Anda (X).
contoh: PC1 = 0.1X1 + 0.3X2
Akan ada satu komponen untuk setiap faktor (meskipun secara umum sejumlah kecil dipilih).
Komponen dibuat sedemikian rupa sehingga tidak memiliki korelasi (bersifat ortogonal), dengan desain.
Oleh karena itu, komponen PC1 tidak boleh menjelaskan variasi komponen PC2.
Anda mungkin ingin melakukan regresi pada variabel Y Anda dan representasi PCA dari X Anda, karena mereka tidak akan memiliki multi-collinearity. Namun, ini bisa sulit ditafsirkan.
Jika Anda memiliki lebih banyak X daripada observasi, yang memecah OLS, Anda dapat mundur pada komponen Anda, dan cukup memilih sejumlah kecil komponen variasi tertinggi.
Analisis Komponen Utama oleh Jollife buku yang sangat mendalam dan sangat dikutip tentang masalah ini
Ini juga bagus: http://www.statsoft.com/textbook/principal-components-factor-analysis/
sumber
Komponen utama adalah ortogonal menurut definisi, sehingga setiap pasangan PC akan memiliki korelasi nol.
Namun, PCA dapat digunakan dalam regresi jika ada banyak variabel penjelas. Ini dapat direduksi menjadi sejumlah kecil komponen utama dan digunakan sebagai prediktor dalam regresi.
sumber
Hati-hati ... hanya karena PC dengan konstruksi saling orthogonal tidak berarti bahwa tidak ada pola atau bahwa satu PC tidak dapat "menjelaskan" sesuatu tentang PC lain.
Pertimbangkan data 3D (X, Y, Z) yang menggambarkan sejumlah besar poin yang didistribusikan secara merata di permukaan sepak bola Amerika (itu adalah ellipsoid - bukan bola - bagi mereka yang belum pernah menonton sepakbola Amerika). Bayangkan bahwa sepak bola berada dalam konfigurasi yang sewenang-wenang sehingga baik X, Y, maupun Z tidak berada di sepanjang sumbu panjang sepakbola.
Komponen utama akan menempatkan PC1 di sepanjang sumbu panjang sepakbola, sumbu yang menggambarkan varians paling banyak dalam data.
Untuk setiap titik dalam dimensi PC1 sepanjang sumbu panjang sepakbola, irisan planar yang diwakili oleh PC2 dan PC3 harus menggambarkan lingkaran dan jari-jari irisan melingkar ini tergantung pada dimensi PC1. Memang benar bahwa regresi PC2 atau PC3 pada PC1 harus memberikan koefisien nol secara global, tetapi tidak lebih dari bagian yang lebih kecil dari bola .... dan jelas bahwa grafik 2D PC1 dan PC2 akan menunjukkan batas pembatas yang "menarik" itu bernilai dua, nonlinier, dan simetris.
sumber
Jika data Anda berdimensi tinggi dan berisik, dan Anda tidak memiliki sampel dalam jumlah besar, Anda menghadapi bahaya overfitting. Dalam kasus seperti itu, masuk akal untuk menggunakan PCA (yang dapat menangkap bagian dominan dari varians data; ortogonalitas bukan masalah) atau analisis faktor (yang dapat menemukan variabel penjelas sebenarnya yang mendasari data) untuk mengurangi dimensi data dan kemudian latih model regresi bersama mereka.
Untuk pendekatan berbasis analisis faktor, lihat makalah ini Bayesian Factor Regression Model , dan versi Bayesian nonparametrik dari model ini yang tidak berasumsi bahwa Anda seorang apriori mengetahui jumlah "relevan" faktor-faktor yang relevan (atau komponen utama dalam kasus PCA).
Saya akan menambahkan bahwa dalam banyak kasus, pengurangan dimensionalitas yang diawasi (mis., Fisher Discriminant Analysis ) dapat memberikan peningkatan dibandingkan dengan pendekatan berbasis PCA atau FA, karena Anda dapat menggunakan informasi label saat melakukan pengurangan dimensionalitas.
sumber
Anda mungkin menariknya keluar jika skor PC prediksi diekstraksi dari variabel yang berbeda, atau kasus, dari skor PC prediktor. jika itu yang diprediksi dan prediktornya tidak ortogonal, atau setidaknya tidak perlu, korelasinya, tentu saja, tidak dijamin.
sumber