Berapa banyak dimensi yang harus dikurangi saat melakukan PCA?

12

Bagaimana cara memilih K untuk PCA? K adalah jumlah dimensi untuk diproyeksikan ke. Satu-satunya persyaratan adalah tidak kehilangan terlalu banyak informasi. Saya mengerti ini tergantung pada data, tetapi saya mencari lebih banyak gambaran umum sederhana tentang karakteristik apa yang harus dipertimbangkan ketika memilih K.

pr338
sumber
Tergantung pada kehilangan data yang dapat ditoleransi, dan juga pada pernyataan masalah juga!
Dawny33
Saya setuju dengan dua jawaban di bawah ini. Namun, apakah Anda tahu ada cara sederhana untuk mengukur kehilangan informasi, yaitu, menggunakan diagonal SVD dari matriks kovarians?
yuqian

Jawaban:

13

Setelah melakukan algoritma PCA Anda mendapatkan komponen utama, diurutkan berdasarkan jumlah informasi yang mereka pegang. Jika Anda menyimpan seluruh set tidak ada informasi yang hilang. Menghapusnya satu per satu dan memproyeksikannya kembali ke ruang asli Anda dapat menghitung kehilangan informasi. Anda dapat merencanakan kehilangan informasi ini terhadap sejumlah komponen utama yang dihapus dan melihat apakah itu 'siku' di tempat yang masuk akal. Banyak dari ini tergantung pada use case Anda.

Jan van der Vegt
sumber
(+1) Ya, sesederhana itu :)
Dawny33
3

Saya biasanya memeriksa persentase informasi yang dipegang oleh nilai K. Katakanlah dari 8 bidang, 2 di antaranya memiliki 90% informasi. Maka tidak ada gunanya memasukkan 6 atau 5 bidang lainnya. Jika Anda tahu data mnist, dari 768 input, saya hanya menggunakan 250, yang meningkatkan akurasi saya dari 83 menjadi 96%. Kenyataannya semakin dimensi membawa lebih banyak masalah. Jadi potong saja. Saya biasanya hanya mengambil K yang hanya memegang 90% dari info, dan itu berfungsi untuk saya.

Amanuel Negash
sumber
Hai .. Saya memiliki masalah serupa di mana saya ingin menggunakan x% informasi dan tidak yakin bagaimana melakukan ini? Saya bermaksud menggunakan IPCA untuk melakukan ini, saya dapat meninggalkan n_components = Tidak ada, tetapi bagaimana saya kemudian memutuskan fitur apa saja yang memiliki x% data?
Arsenal Fanatic