Misalkan Saya menjalankan regresi . Mengapa dengan memilih komponen prinsip k atas X , apakah model mempertahankan daya prediksi pada Y ?
Saya mengerti bahwa dari dimensi-reduksi / titik fitur-seleksi pandang, jika adalah vektor eigen dari kovarians matriks X dengan top k eigen, maka X v 1 , X v 2 . . . X v k adalah komponen utama top k dengan varian maksimum. Dengan demikian kita dapat mengurangi jumlah fitur menjadi k dan mempertahankan sebagian besar daya prediksi, seperti yang saya mengerti.
Tetapi mengapa komponen top mempertahankan daya prediksi pada Y ?
Jika kita berbicara tentang seorang jenderal OLS , tidak ada alasan untuk menyarankan bahwa jika fitur Z i memiliki varians maksimum, maka Z i memiliki daya prediksi yang paling di Y .
Pembaruan setelah melihat komentar: Saya kira saya telah melihat banyak contoh menggunakan PCA untuk pengurangan dimensi. Saya berasumsi itu berarti dimensi yang tersisa untuk kita memiliki kekuatan paling prediktif. Kalau tidak, apa gunanya reduksi dimensi?
Jawaban:
Memang, tidak ada jaminan bahwa komponen utama atas (PC) memiliki daya prediksi lebih dari yang varians rendah.
Topik ini banyak dibahas di forum kami, dan tanpa adanya satu utas kanonik yang jelas, saya hanya dapat memberikan beberapa tautan yang bersama-sama memberikan berbagai kehidupan nyata serta contoh buatan:
Dan topik yang sama, tetapi dalam konteks klasifikasi:
Namun, dalam praktiknya, PC atas sering tidak sering memiliki kekuatan lebih prediktif daripada yang rendah varians, dan terlebih lagi, hanya menggunakan PC atas dapat menghasilkan daya prediksi yang lebih baik daripada menggunakan semua PC.
Lihat jawaban selanjutnya oleh @cbeleites (+1) untuk beberapa diskusi tentang mengapa asumsi ini sering dibenarkan (dan juga utas yang lebih baru ini: Apakah pengurangan dimensionalitas hampir selalu berguna untuk klasifikasi? Untuk beberapa komentar lebih lanjut).
Hastie et al. dalam The Elements of Statistics Learning (bagian 3.4.1) mengomentari ini dalam konteks regresi ridge:
Lihat jawaban saya di utas berikut untuk detail:
Intinya
Untuk masalah dimensi tinggi, pra-pemrosesan dengan PCA (yang berarti mengurangi dimensi dan hanya mempertahankan PC teratas) dapat dilihat sebagai salah satu cara regularisasi dan akan sering meningkatkan hasil analisis selanjutnya, baik itu regresi atau metode klasifikasi. Tetapi tidak ada jaminan bahwa ini akan berhasil, dan seringkali ada pendekatan regularisasi yang lebih baik.
sumber
Selain jawaban yang sudah fokus pada properti matematika, saya ingin mengomentari dari sudut pandang eksperimental.
Ringkasan: proses pembuatan data sering dioptimalkan dengan cara yang membuat data cocok untuk komponen utama (PCR) atau regresi kuadrat terkecil parsial (PLS).
Saya ahli kimia analitik. Ketika saya merancang eksperimen / metode untuk mengukur (regresi atau klasifikasi) sesuatu, saya menggunakan pengetahuan saya tentang aplikasi dan instrumen yang tersedia untuk mendapatkan data yang membawa rasio sinyal terhadap noise yang baik sehubungan dengan tugas yang dihadapi. Itu berarti, data yang saya hasilkan dirancang untuk memiliki kovarians besar dengan properti yang menarik.
Ini mengarah ke struktur varians di mana varians menarik besar, dan PC kemudian akan membawa noise (kecil) saja.
Saya juga lebih suka metode yang menghasilkan informasi yang berlebihan tentang tugas yang dihadapi, agar mendapatkan hasil yang lebih kuat atau lebih tepat. PCA mengkonsentrasikan saluran pengukuran yang berlebihan ke dalam satu PC, yang kemudian membawa banyak variasi dan karenanya merupakan salah satu PC pertama.
Jika ada perancu diketahui yang akan menyebabkan varians besar yang tidak berkorelasi dengan properti yang diminati, saya biasanya akan mencoba untuk memperbaikinya sebanyak mungkin selama preprocessing data: dalam banyak kasus perancu ini diketahui sifat fisik atau kimia, dan pengetahuan ini menyarankan cara yang tepat untuk memperbaiki perancu. Misalnya saya mengukur spektrum Raman di bawah mikroskop. Intensitas mereka tergantung pada intensitas sinar laser serta seberapa baik saya bisa memfokuskan mikroskop. Keduanya mengarah pada perubahan yang dapat dikoreksi dengan menormalkan misalnya ke sinyal yang dikenal konstan.
Dengan demikian, kontributor besar varians yang tidak berkontribusi pada solusi mungkin telah dihilangkan sebelum data memasuki PCA, meninggalkan sebagian besar varians yang bermakna di PC pertama.
Last but not least, ada sedikit ramalan yang terpenuhi dengan sendirinya di sini: Jelas PCR dilakukan dengan data di mana asumsi bahwa varians pembawa informasi besar memang masuk akal. Jika misalnya saya berpikir bahwa mungkin ada perancu penting yang saya tidak tahu cara memperbaikinya, saya akan segera mencari PLS yang lebih baik mengabaikan kontribusi besar yang tidak membantu tugas prediksi.
sumber
PCA kadang-kadang digunakan untuk memperbaiki masalah yang disebabkan oleh variabel collinear sehingga sebagian besar variasi dalam ruang X ditangkap oleh komponen utama K.
Tetapi masalah matematika ini tentu saja tidak sama dengan menangkap sebagian besar variasi baik dalam ruang X, Y sedemikian rupa sehingga variasi yang tidak dapat dijelaskan sekecil mungkin.
Kuadrat terkecil parsial mencoba melakukan ini dalam pengertian yang terakhir:
http://en.wikipedia.org/wiki/Partial_least_squares_regress
sumber
Seperti yang telah ditunjukkan oleh yang lainnya, tidak ada hubungan langsung antara vektor eigen top k dan kekuatan prediksi. Dengan memilih bagian atas dan menggunakannya sebagai dasar, Anda mempertahankan energi teratas (atau varian di sepanjang sumbu itu).
Bisa jadi bahwa sumbu yang menjelaskan varian paling banyak sebenarnya berguna untuk prediksi tetapi secara umum hal ini tidak terjadi.
sumber
Izinkan saya menawarkan satu penjelasan sederhana.
PCA sama dengan menghapus fitur tertentu secara intuitif. Ini mengurangi kemungkinan over-fitting.
sumber