Bagaimana cara memilih K untuk PCA? K adalah jumlah dimensi untuk diproyeksikan ke. Satu-satunya persyaratan adalah tidak kehilangan terlalu banyak informasi. Saya mengerti ini tergantung pada data, tetapi saya mencari lebih banyak gambaran umum sederhana tentang karakteristik apa yang harus dipertimbangkan ketika memilih K.
12
Jawaban:
Setelah melakukan algoritma PCA Anda mendapatkan komponen utama, diurutkan berdasarkan jumlah informasi yang mereka pegang. Jika Anda menyimpan seluruh set tidak ada informasi yang hilang. Menghapusnya satu per satu dan memproyeksikannya kembali ke ruang asli Anda dapat menghitung kehilangan informasi. Anda dapat merencanakan kehilangan informasi ini terhadap sejumlah komponen utama yang dihapus dan melihat apakah itu 'siku' di tempat yang masuk akal. Banyak dari ini tergantung pada use case Anda.
sumber
Saya biasanya memeriksa persentase informasi yang dipegang oleh nilai K. Katakanlah dari 8 bidang, 2 di antaranya memiliki 90% informasi. Maka tidak ada gunanya memasukkan 6 atau 5 bidang lainnya. Jika Anda tahu data mnist, dari 768 input, saya hanya menggunakan 250, yang meningkatkan akurasi saya dari 83 menjadi 96%. Kenyataannya semakin dimensi membawa lebih banyak masalah. Jadi potong saja. Saya biasanya hanya mengambil K yang hanya memegang 90% dari info, dan itu berfungsi untuk saya.
sumber