Apa metrik yang baik untuk menilai kualitas analisis komponen utama (PCA)?
Saya melakukan algoritma ini pada dataset. Tujuan saya adalah mengurangi jumlah fitur (informasinya sangat berlebihan). Saya tahu persentase varians yang disimpan adalah indikator yang baik tentang seberapa banyak informasi yang kami simpan, apakah ada metrik informasi lain yang dapat saya gunakan untuk memastikan saya menghapus informasi yang berlebihan dan tidak 'kehilangan' informasi seperti itu?
machine-learning
pca
data-mining
information-theory
pohon besar
sumber
sumber
Jawaban:
Saya berasumsi bagian dari pertanyaan ini adalah apakah ada metrik lain selain varians kumulatif persen (CPV) dan pendekatan plot scree serupa. Jawabannya adalah, ya, banyak .
Makalah yang bagus tentang beberapa opsi adalah Valle 1999:
Pemilihan Jumlah Komponen Utama: Varians Kriteria Kesalahan Rekonstruksi dengan Perbandingan dengan Metode Lain
Sergio Valle, Weihua Li, dan S. Joe Qin, Penelitian Kimia Industri & Rekayasa 1999 38 (11), 4389-4401
Ini melampaui CPV, tetapi juga Analisis Paralel, validasi silang, Varian kesalahan rekonstruksi (VRE), metode berbasis kriteria informasi, dan banyak lagi. Anda dapat mengikuti rekomendasi yang dibuat oleh makalah setelah membandingkan dan menggunakan VRE, tetapi validasi silang berdasarkan PRESS juga bekerja dengan baik dalam pengalaman saya dan mereka mendapatkan hasil yang baik dengan itu. Dalam pengalaman saya, CPV nyaman dan mudah, dan melakukan pekerjaan yang layak, tetapi kedua metode itu biasanya lebih baik.
Ada cara lain untuk mengevaluasi seberapa baik model PCA Anda jika Anda tahu lebih banyak tentang data. Salah satu caranya adalah membandingkan perkiraan beban PCA dengan yang benar jika Anda mengetahuinya (yang akan Anda lakukan dalam simulasi). Ini dapat dilakukan dengan menghitung bias dari estimasi beban ke yang sebenarnya. Semakin besar bias Anda, semakin buruk model Anda. Untuk cara melakukannya, Anda dapat memeriksa makalah ini di mana mereka menggunakan pendekatan ini untuk membandingkan metode. Ini tidak dapat digunakan dalam kasus data nyata, di mana Anda tidak tahu pemuatan PCA yang sebenarnya. Ini berbicara kurang tentang berapa banyak komponen yang Anda hapus, daripada bias model Anda karena pengaruh pengamatan terpencil, tetapi masih berfungsi sebagai metrik kualitas model.
sumber
Ada juga ukuran berdasarkan kriteria informasi-teoretis seperti
Rissanen MDL (dan variasi)
sumber