Saya belajar tentang PCA beberapa kuliah yang lalu di kelas dan dengan menggali lebih banyak tentang konsep yang menarik ini, saya mengetahui tentang PCA yang jarang.
Saya ingin bertanya, jika saya tidak salah, ini adalah PCA yang jarang: Di PCA, jika Anda memiliki titik data dengan variabel p , Anda dapat mewakili setiap titik data dalam ruang p dimensi sebelum menerapkan PCA. Setelah menerapkan PCA, Anda dapat kembali merepresentasikannya dalam ruang dimensi yang sama, tetapi, kali ini, komponen utama pertama akan berisi varian paling banyak, yang kedua akan berisi arah varian paling kedua dan seterusnya. Jadi Anda dapat menghilangkan beberapa komponen utama terakhir, karena mereka tidak akan menyebabkan banyak kehilangan data, dan Anda dapat memampatkan data. Kanan?
Jarang PCA memilih komponen utama sedemikian sehingga komponen ini mengandung lebih sedikit nilai bukan nol dalam koefisien vektor mereka.
Bagaimana ini seharusnya membantu Anda menafsirkan data dengan lebih baik? Adakah yang bisa memberi contoh?
sumber
Jawaban:
Apakah PCA jarang lebih mudah diinterpretasikan daripada PCA standar atau tidak, tergantung pada dataset yang Anda selidiki. Inilah yang saya pikirkan: kadang-kadang orang lebih tertarik pada proyeksi PCA (representasi data dimensi rendah), dan kadang-kadang - pada sumbu utama; hanya dalam kasus terakhir PCA jarang dapat memiliki manfaat untuk interpretasi. Biarkan saya memberi beberapa contoh.
Saya misalnya bekerja dengan data saraf (rekaman simultan dari banyak neuron) dan saya menerapkan PCA dan / atau teknik reduksi dimensi terkait untuk mendapatkan representasi dimensi rendah dari aktivitas populasi saraf. Saya mungkin memiliki 1000 neuron (yaitu data saya hidup dalam ruang 1000-dimensi) dan ingin memproyeksikannya pada tiga sumbu utama terkemuka. Apa sumbu ini, sama sekali tidak relevan bagi saya, dan saya tidak punya niat untuk "menafsirkan" sumbu ini dengan cara apa pun. Yang saya minati, adalah proyeksi 3D (karena aktivitasnya tergantung pada waktu, saya mendapatkan lintasan di ruang 3D ini). Jadi saya baik-baik saja jika setiap sumbu memiliki semua 1000 koefisien nol.
Anda dapat menemukan lebih banyak contoh dan beberapa diskusi tentang kasus terakhir di makalah Sparse PCA 2006 oleh Zou et al. Namun, perbedaan antara yang pertama dan yang terakhir, saya tidak melihat secara eksplisit dibicarakan di mana pun (walaupun mungkin memang begitu).
sumber
sumber
Untuk memahami kelebihan sparsity di PCA, Anda perlu memastikan Anda tahu perbedaan antara "memuat" dan "variabel" (bagi saya nama-nama ini agak arbitrer, tapi itu tidak penting).
Katakanlah Anda memiliki matriks data nxp X , di mana n adalah jumlah sampel. SVD X = USV ' , memberi Anda tiga matriks. Menggabungkan dua Z pertama = AS memberi Anda matriks Komponen Utama. Katakanlah penurunan peringkat Anda adalah k , maka Z adalah nxk . Z pada dasarnya adalah matriks data Anda setelah pengurangan dimensi. Secara historis,
Di sisi lain, V (yang merupakan pxk ) berisi vektor pemuatan pokok dan isinya disebut pemuatan utama. Mengingat sifat-sifat PCA, mudah untuk menunjukkan bahwa Z = XV . Ini berarti:
Sekarang definisi-definisi ini keluar dari jalan, kita akan melihat sparsity. Sebagian besar makalah (atau setidaknya sebagian besar yang saya temui), memberlakukan sparsity pada pemuatan utama (alias V ). Keuntungan dari sparsity adalah itu
Ada juga interpretasi untuk menegakkan sparsity pada entri Z , yang saya lihat orang menyebutnya "variabel jarang PCA" ", tapi itu jauh kurang populer dan sejujurnya saya belum terlalu memikirkannya.
sumber