Saya baru-baru ini belajar tentang PCA yang luar biasa dan saya telah melakukan contoh yang diuraikan dalam dokumentasi scikit-learn .
Saya tertarik untuk mengetahui bagaimana saya bisa menerapkan PCA ke titik data baru untuk tujuan klasifikasi.
Setelah memvisualisasikan PCA dalam bidang 2 dimensi (sumbu x, y), saya melihat bahwa saya mungkin dapat menggambar garis untuk memisahkan titik data sehingga satu sisi akan menjadi satu klasifikasi dan yang lainnya dari klasifikasi lain. Bagaimana cara menggambar "batas" ini dan menerapkannya pada titik data baru?
classification
pca
scikit-learn
vlasnalknsd
sumber
sumber
Jawaban:
PCA adalah alat reduksi dimensi, bukan penggolong. Di Scikit-Learn, semua pengklasifikasi dan estimator memiliki
predict
metode yang tidak dimiliki PCA . Anda harus menyesuaikan classifier pada data yang diubah PCA. Scikit-Learn memiliki banyak pengklasifikasi. Berikut adalah contoh penggunaan pohon keputusan pada data yang diubah PCA. Saya memilih classifier pohon keputusan karena berfungsi dengan baik untuk data dengan lebih dari dua kelas yang merupakan kasus dengan dataset iris.SciKit belajar memiliki alat yang mudah disebut Pipeline yang memungkinkan Anda untuk menyatukan transformator dan penggolong akhir:
Ini sangat berguna ketika melakukan validasi silang karena mencegah Anda secara tidak sengaja memasang kembali langkah APAPUN dari pipeline pada set data pengujian Anda:
Omong-omong, Anda bahkan mungkin tidak perlu menggunakan PCA untuk mendapatkan hasil klasifikasi yang baik. Dataset iris tidak memiliki banyak dimensi dan pohon keputusan sudah akan bekerja dengan baik pada data yang tidak diubah.
sumber
Jika Anda ingin menerapkan PCA ke data baru, Anda harus memasukkan model terlebih dahulu pada beberapa dataset pelatihan. Apa model yang akan Anda tanyakan? Ini adalah vektor rata-rata yang Anda kurangi dari dataset, varian yang Anda gunakan untuk "memutihkan" setiap vektor data dan matriks pemetaan yang dipelajari. Jadi, untuk memetakan dataset baru dalam ruang yang sama dengan data pelatihan, pertama-tama Anda kurangi rata-rata, memutihkan dan memetakannya dengan matriks pemetaan.
sumber