Misalkan saya memiliki set data dimensi di mana dimensi kira-kira ortogonal (memiliki korelasi nol).
Apakah ada utilitas dalam hal:
- Visualisasi
- Representasi (untuk efisiensi pengklasifikasi)
- Atau kriteria lainnya
melakukan pengurangan dimensi pada data?
pca
dimensionality-reduction
pengguna1172468
sumber
sumber
Jawaban:
Saya ingin mengklarifikasi komentar yang saya tinggalkan di bawah jawaban @ Peter-Flom tetapi mungkin layak dituliskan dalam jawaban. Sejauh mana Anda dapat mengurangi dimensi dengan menjalankan PCA pada data yang hampir ortogonal? Jawabannya adalah "itu tergantung" pada apakah Anda melakukan PCA pada matriks korelasi atau kovarian .
Jika Anda menggunakan PCA pada matriks korelasi, maka karena ini hanya akan sedikit berbeda dari matriks identitas, ada simetri bola yang menjadikan semua arah "sama informatif". Mengubah varian variabel Anda menjadi satu sebelum PCA adalah pendekatan yang setara secara matematis yang akan menghasilkan hasil yang sama. Sementara output PCA akan mengidentifikasi beberapa komponen dengan varians yang sedikit lebih rendah daripada yang lain, ini dapat dikaitkan (jika kita mengasumsikan nol korelasi dalam populasi) dengan tidak lebih dari variasi kebetulan dalam sampel, jadi tidak akan menjadi alasan yang baik untuk membuang ini komponen. Faktanya, perbedaan antara standar deviasi komponen harus dikurangi dalam besarnya ketika kita meningkatkan ukuran sampel. Kami dapat mengkonfirmasi ini dalam simulasi.
Keluaran:
Namun, jika Anda melakukan PCA menggunakan matriks kovarians alih-alih matriks korelasi (ekuivalen: jika kami tidak menskalakan standar deviasi ke 1 sebelum menerapkan PCA), maka jawabannya tergantung pada penyebaran variabel Anda. Jika variabel Anda memiliki varian yang sama maka kami masih memiliki simetri bola, sehingga tidak ada "arah istimewa" dan pengurangan dimensi tidak dapat dicapai.
Dengan campuran variabel varians tinggi dan rendah, simetri lebih seperti ellipsoid dengan beberapa kapak lebar dan lainnya tipis. Dalam situasi ini akan ada komponen varians tinggi memuat pada variabel varians tinggi (di mana ellipsoid lebar) dan komponen varians rendah memuat pada variabel varians rendah (di mana arah ellipsoid sempit).
Jika variabel memiliki varians yang sangat berbeda (geometris ellipsoid lagi tetapi dengan semua sumbu berbeda), maka ortogonalitas memungkinkan PC pertama memuat sangat banyak pada variabel varians tertinggi dan seterusnya.
Dalam dua kasus terakhir ada komponen varians rendah Anda mungkin mempertimbangkan membuang untuk mencapai pengurangan dimensi, tetapi melakukannya persis sama dengan membuang variabel varians terendah di tempat pertama . Pada dasarnya, ortogonalitas memungkinkan Anda untuk mengidentifikasi komponen varians rendah dengan variabel varians rendah, jadi jika Anda bermaksud mengurangi dimensi dengan cara ini, tidak jelas Anda akan mendapat manfaat dari menggunakan PCA untuk melakukannya.
Nota bene: lamanya waktu yang dihabiskan untuk membahas kasus di mana variabel tidak diubah kembali ke varians unit - yaitu menggunakan kovarians daripada matriks korelasi - tidak boleh dianggap sebagai indikasi bahwa pendekatan ini entah bagaimana lebih penting, dan tentu saja bukan karena itu lebih baik". Simetri situasi hanya lebih halus sehingga memerlukan diskusi lebih lama.
sumber
Anda dapat mencoba metode pembelajaran manifold reduksi dimensi nonlinier yang lebih umum seperti penyisipan linear lokal, pemetaan eigen laplacian atau t-SNE.
Sangat mungkin untuk ada subruang dimensi yang lebih rendah (manifold) dalam data Anda dengan cara yang meninggalkan 0 korelasi antara dimensi berbasis-N. Misalnya lingkaran titik tentang asal atau bentuk gelombang seperti yang terlihat di sini . PCA tidak akan mengambil ini tetapi metode lain akan melakukannya.
Melihat metode seperti itu sangat menarik dan umum untuk visualisasi dan analisis data eksplorasi. Untuk digunakan dalam classifier atau model lain, Anda harus membatasi diri pada metode yang sesuai untuk pelatihan dan diterapkan pada tes yang mengecualikan banyak metode ini. Jika ini adalah minat utama Anda, Anda juga harus melihat metode untuk rekayasa fitur pretraining dan diawasi yang tidak diawasi.
sumber
Jika semua variabel N kira-kira ortogonal maka pengurangan dimensi akan melakukan pengurangan yang relatif sedikit. Misalnya di
R
Intinya, "ortogonal" menyiratkan "sudah pada ukuran terkecil".
sumber
x1<-rnorm(100, sd=0.1)
danpcsol <- princomp(df1, cor=FALSE)
dan ada perbedaan, terutama jika kita melihatnyasummary(pcsol)
. (Saya tidak menyarankan cov adalah pendekatan yang lebih baik daripada cor, hanya saja itu mungkin.)