Ide dasar ketika menggunakan PCA sebagai alat untuk pemilihan fitur adalah untuk memilih variabel sesuai dengan besarnya (dari terbesar ke terkecil dalam nilai absolut) dari koefisien mereka ( memuat ). Anda mungkin ingat bahwa PCA berusaha untuk mengganti variabel (lebih atau kurang berkorelasi) dengan k < p kombinasi linier tidak berkorelasi (proyeksi) dari variabel asli. Mari kita abaikan bagaimana memilih k yang optimal untuk masalah yang dihadapi. Mereka k komponen utama adalah peringkat oleh kepentingan melalui varians mereka menjelaskan, dan masing-masing memberikan kontribusi variabel dengan berbagai derajat masing-masing komponen. Menggunakan kriteria varians terbesar akan mirip dengan ekstraksi fiturpk<pkk , di mana komponen utama digunakan sebagai fitur baru, bukan variabel asli. Namun, kita dapat memutuskan untuk hanya menyimpan komponen pertama dan memilih variabel yang memiliki koefisien absolut tertinggi; angka j mungkin didasarkan pada proporsi jumlah variabel (mis., pertahankan hanya 10% teratas dari variabel p ), atau cutoff tetap (misalnya, pertimbangkan ambang batas pada koefisien dinormalisasi). Pendekatan ini memiliki kemiripan dengan operator Lasso dalam regresi yang dihukum (atau regresi PLS ). Namun, baik nilai j , maupun jumlah komponen yang harus dipertahankan bukanlah pilihan yang jelas.j<pjpj
Masalah dengan menggunakan PCA adalah bahwa (1) pengukuran dari semua variabel asli digunakan dalam proyeksi ke ruang dimensi yang lebih rendah, (2) hanya hubungan linier yang dipertimbangkan, dan (3) metode berbasis PCA atau SVD, serta sebagai metode skrining univariat (uji-t, korelasi, dll.), jangan memperhitungkan sifat multivariat yang potensial dari struktur data (misalnya, interaksi tingkat tinggi antar variabel).
Tentang poin 1, beberapa metode skrining yang lebih rumit telah diusulkan, misalnya analisis fitur utama atau metode bertahap, seperti yang digunakan untuk ' pencukuran gen ' dalam studi ekspresi gen. Juga, PCA jarang dapat digunakan untuk melakukan pengurangan dimensi dan pemilihan variabel berdasarkan beban variabel yang dihasilkan. Tentang poin 2, dimungkinkan untuk menggunakan kernel PCA (menggunakan trik kernel ) jika seseorang perlu menanamkan hubungan nonlinear ke ruang dimensi yang lebih rendah. Pohon keputusan , atau lebih baik algoritma hutan acak , mungkin lebih mampu untuk menyelesaikan Poin 3. Yang terakhir memungkinkan untuk mendapatkan langkah-langkah berbasis variabel atau permutasi dari kepentingan variabel .
Poin terakhir: Jika Anda berniat melakukan pemilihan fitur sebelum menerapkan model klasifikasi atau regresi, pastikan untuk memvalidasi silang seluruh proses (lihat §7.10.2 dari Elemen Pembelajaran Statistik , atau Ambroise dan McLachlan, 2002 ).
Karena Anda tampaknya tertarik pada solusi R, saya akan merekomendasikan untuk melihat pada paket caret yang mencakup banyak fungsi praktis untuk preprocessing data dan pemilihan variabel dalam konteks klasifikasi atau regresi.
Dengan serangkaian fitur N, analisis PCA akan menghasilkan (1) kombinasi linier fitur dengan varian tertinggi (komponen PCA pertama), (2) kombinasi linier dengan varian tertinggi dalam subruang ortogonal ke komponen PCA pertama, dan sebagainya. (di bawah batasan bahwa koefisien kombinasi membentuk vektor dengan norma satuan) Apakah kombinasi linear dengan varian maksimum adalah fitur "baik" benar-benar tergantung pada apa yang Anda coba prediksi. Untuk alasan ini saya akan mengatakan bahwa menjadi komponen PCA dan menjadi fitur "baik" adalah (secara umum) dua gagasan yang tidak terkait.
sumber
Anda tidak dapat memesan fitur berdasarkan variansnya, karena varians yang digunakan dalam PCA pada dasarnya adalah entitas multidimensi. Anda hanya dapat memesan fitur dengan proyeksi varians ke arah tertentu yang Anda pilih (yang biasanya merupakan compnonet utama pertama). Jadi, dengan kata lain, apakah fitur memiliki varians lebih dari anther satu tergantung pada bagaimana Anda memilih arah proyeksi Anda.
sumber