Saya mengerti bahwa PCA digunakan untuk reduksi dimensionalitas agar dapat merencanakan dataset dalam 2D atau 3D. Tetapi saya juga melihat orang yang menerapkan PCA sebagai langkah preprocessing dalam skenario klasifikasi di mana mereka menerapkan PCA untuk mengurangi jumlah fitur, kemudian mereka menggunakan beberapa Komponen Utama (vektor eigen dari matriks kovarians) sebagai fitur baru.
Pertanyaan saya:
Apa dampaknya terhadap kinerja klasifikasi?
Kapan menerapkan langkah preprocessing seperti itu?
Saya memiliki dataset dengan 10 fitur sebagai bilangan real dan 600 fitur biner yang mewakili fitur kategorikal, menggunakan pengkodean satu ke banyak untuk mewakili mereka. Apakah menerapkan PCA di sini masuk akal dan membuat hasil yang lebih baik?
ps jika pertanyaannya terlalu luas, saya akan berterima kasih jika Anda memberikan makalah atau tutorial yang menjelaskan lebih baik detail menggunakan PCA dengan cara itu.
ps setelah membaca sedikit, saya menemukan bahwa bisa lebih baik menggunakan Latent Semantic Analysis untuk mengurangi jumlah fitur biner untuk atribut kategorikal? Jadi saya tidak menyentuh fitur bernilai nyata, tetapi hanya preprocess fitur biner dan kemudian menggabungkan fitur bernilai nyata dengan fitur baru dan melatih classifier saya. Bagaimana menurut anda?
sumber