Saya memiliki classifier yang saya lakukan validasi silang, bersama dengan seratus atau lebih fitur yang saya lakukan seleksi maju untuk menemukan kombinasi fitur yang optimal. Saya juga membandingkan ini dengan menjalankan eksperimen yang sama dengan PCA, di mana saya mengambil fitur potensial, menerapkan SVD, mengubah sinyal asli ke ruang koordinat baru, dan menggunakan fitur atas dalam proses seleksi maju saya.
Intuisi saya adalah bahwa PCA akan meningkatkan hasil, karena sinyal akan lebih "informatif" daripada fitur aslinya. Apakah pemahaman naif saya tentang PCA membawa saya ke masalah? Adakah yang bisa menyarankan beberapa alasan umum mengapa PCA dapat meningkatkan hasil dalam beberapa situasi, tetapi memperburuknya dalam situasi lain?
sumber
Jawaban:
Pertimbangkan sebuah kasus sederhana, diangkat dari artikel yang luar biasa dan undervalued "Catatan tentang Penggunaan Komponen Utama dalam Regresi" .
Misalkan Anda hanya memiliki dua fitur (diskalakan dan tidak bermakna), tunjukkan fitur dan dengan korelasi positif sama dengan 0,5, sejajar dalam , dan variabel respons ketiga yang ingin Anda klasifikasikan. Misalkan klasifikasi sepenuhnya ditentukan oleh tanda .x1 x2 X Y Y x1−x2
Melakukan PCA pada menghasilkan fitur baru (dipesan berdasarkan varian) , karena . Oleh karena itu, jika Anda mengurangi dimensi Anda menjadi 1 yaitu komponen utama pertama, Anda membuang solusi yang tepat untuk klasifikasi Anda!X [x1+x2,x1−x2] Var(x1+x2)=1+1+2ρ>Var(x1−x2)=2−2ρ
Masalah terjadi karena PCA adalah agnostik ke . Sayangnya, seseorang tidak dapat memasukkan dalam PCA karena hal ini akan menyebabkan kebocoran data.Y Y
Kebocoran data adalah ketika matriks dibangun menggunakan prediktor target yang dimaksud, maka setiap prediksi out-of-sample tidak mungkin dilakukan.X
Misalnya: dalam rangkaian waktu keuangan, mencoba memprediksi penutupan Eropa akhir hari, yang terjadi pada pukul 11:00 EST, menggunakan penutupan Amerika akhir hari, pada pukul 16:00 EST, adalah kebocoran data sejak Amerika menutup , yang terjadi beberapa jam kemudian, telah memasukkan harga penutupan Eropa.
sumber
Ada penjelasan geometris sederhana. Coba contoh berikut dalam R dan ingat bahwa komponen utama pertama memaksimalkan varians.
PCA Membantu
Arah varians maksimal adalah horizontal, dan kelas-kelas dipisahkan secara horizontal.
PCA Sakit
Arah varians maksimal adalah horisontal, tetapi kelas-kelas dipisahkan secara vertikal
sumber
PCA linear, sakit ketika Anda ingin melihat dependensi non linier.
PCA pada gambar sebagai vektor:
Algoritma non linear (NLDR) yang mereduksi gambar menjadi 2 dimensi, rotasi dan skala:
Informasi lebih lanjut: http://en.wikipedia.org/wiki/Nonlinear_dimensionality_reduction
sumber
Saya melihat pertanyaan sudah memiliki jawaban yang diterima tetapi ingin berbagi makalah ini yang berbicara tentang penggunaan PCA untuk transformasi fitur sebelum klasifikasi .
Pesan dibawa pulang (yang divisualisasikan dengan indah dalam jawaban @ vqv) adalah:
Bagi mereka yang tertarik, jika Anda melihat Bagian 4. Hasil percobaan , mereka membandingkan akurasi klasifikasi dengan 1) fitur asli, 2) fitur yang diubah PCA, dan 3) kombinasi keduanya, yang merupakan sesuatu yang baru bagi saya.
Kesimpulan saya:
Transformasi fitur berbasis PCA memungkinkan untuk meringkas informasi dari sejumlah besar fitur menjadi sejumlah komponen, yaitu kombinasi linear dari fitur asli. Namun komponen utama seringkali sulit untuk diartikan (tidak intuitif), dan sebagai hasil empiris dalam tulisan ini menunjukkan mereka biasanya tidak meningkatkan kinerja klasifikasi.
PS: Saya perhatikan bahwa salah satu batasan dari makalah yang harus didaftar adalah kenyataan bahwa penulis membatasi penilaian kinerja pengklasifikasi hanya untuk 'akrual' saja, yang dapat menjadi indikator kinerja yang sangat bias.
sumber
Misalkan sederhana dengan 3 variabel bebas dan output dan anggaplah sekarang bahwa dan Anda harus bisa mendapatkan model kesalahan 0. y x 3 = yx1,x2,x3 y x3=y
Misalkan sekarang bahwa dalam pelatihan set variasi sangat kecil dan begitu juga variasi . x 3y x3
Sekarang jika Anda menjalankan PCA dan Anda memutuskan untuk memilih hanya 2 variabel, Anda akan mendapatkan kombinasi dan . Jadi informasi yang merupakan satu-satunya variabel yang dapat menjelaskan hilang.x 2 x 3 yx1 x2 x3 y
sumber