Saya menjalankan PCA pada 17 variabel kuantitatif untuk mendapatkan serangkaian variabel yang lebih kecil, yaitu komponen utama, yang akan digunakan dalam pembelajaran mesin yang diawasi untuk mengklasifikasikan instance ke dalam dua kelas. Setelah PCA, PC1 menyumbang 31% dari varians dalam data, PC2 menyumbang 17%, PC3 menyumbang 10%, PC4 menyumbang 8%, PC5 menyumbang 7%, dan PC6 menyumbang 6%.
Namun, ketika saya melihat perbedaan rata-rata antara PC di antara dua kelas, yang mengejutkan, PC1 bukanlah pembeda yang baik antara kedua kelas. PC yang tersisa adalah diskriminator yang baik. Selain itu, PC1 menjadi tidak relevan ketika digunakan dalam pohon keputusan yang berarti bahwa setelah pemangkasan pohon itu bahkan tidak ada di pohon. Pohon itu terdiri dari PC2-PC6.
Apakah ada penjelasan untuk fenomena ini? Mungkinkah ada yang salah dengan variabel turunan?
Jawaban:
Itu juga bisa terjadi jika variabel tidak diskalakan untuk memiliki unit varians sebelum melakukan PCA. Misalnya, untuk data ini (perhatikan bahwa skala hanya naik dari ke sedangkan pergi dari ke ):y - 0,5 1 x - 3 3
PC1 kira-kira dan menyumbang hampir semua varians, tetapi tidak memiliki kekuatan diskriminatif, sedangkan PC2 adalah dan membedakan dengan sempurna antara kelas-kelas.x y
sumber
prcomp(x, center=T, scale=T)
yang sama dengan melakukan (x-mean) / sd. Dalam contoh ini, Anda akan menemukan bahwa komponen utama tidak merupakan pembeda yang baik antara kelas; ini hanya berfungsi jika keduanya digunakan bersama.Saya berasumsi bahwa jawaban dan contoh yang diberikan oleh @Flounderer menyiratkan ini, tapi saya pikir itu layak dieja. Analisis komponen utama (PCA) adalah label (klasifikasi) acuh tak acuh. Yang dilakukannya hanyalah mengubah beberapa data dimensi tinggi ke ruang dimensi lain. Ini mungkin membantu dalam upaya klasifikasi, misalnya, menciptakan kumpulan data yang lebih mudah dipisahkan dengan metode tertentu. Namun, ini hanya produk sampingan (atau efek samping) dari PCA.
sumber
Ketika kami melakukan analisis Komponen Utama, komponen utama sesuai dengan arah variabilitas maksimum, mereka tidak menjamin diskriminasi maksimum atau pemisahan antar kelas.
Jadi komponen ke-2 memberi Anda klasifikasi yang baik berarti data ke arah itu memberi Anda diskriminasi yang lebih baik antar kelas. Ketika Anda melakukan Analisis Linier Linier (LDA), ini memberi Anda komponen arah ortogonal terbaik yang memaksimalkan jarak antar kelas dan meminimalkan jarak antar kelas.
Jadi jika Anda melakukan LDA pada data dan bukan PCA mungkin salah satu komponen pertama akan lebih dekat ke PC6 daripada PC1. Semoga ini membantu.
sumber