Biasanya dalam analisis komponen utama (PCA) beberapa PC pertama digunakan dan PC varians rendah dijatuhkan, karena mereka tidak menjelaskan banyak variasi dalam data.
Namun, adakah contoh di mana PC dengan variasi rendah bermanfaat (yaitu menggunakan dalam konteks data, memiliki penjelasan intuitif, dll.) Dan tidak boleh dibuang?
Jawaban:
Berikut kutipan keren dari Jolliffe (1982) yang tidak saya sertakan dalam jawaban saya sebelumnya untuk pertanyaan yang sangat mirip, " Komponen varians rendah dalam PCA, apakah mereka benar-benar hanya noise? Apakah ada cara untuk mengujinya? " itu cukup intuitif.
Tiga contoh dari literatur yang disebutkan dalam kalimat terakhir dari paragraf kedua adalah tiga yang saya sebutkan dalam jawaban saya untuk pertanyaan terkait .
Referensi
Jolliffe, IT (1982). Catatan tentang penggunaan komponen utama dalam regresi. Statistik Terapan, 31 (3), 300–303. Diperoleh dari http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
sumber
Jika Anda memiliki R, ada contoh yang baik dalam
crabs
data dalam paket MASS.Lebih dari 98% varians "dijelaskan" oleh dua PC pertama, tetapi sebenarnya jika Anda benar-benar mengumpulkan pengukuran ini dan sedang mempelajarinya, PC ketiga sangat menarik, karena terkait erat dengan spesies kepiting. Tetapi dibanjiri oleh PC1 (yang tampaknya sesuai dengan ukuran kepiting) dan PC2 (yang tampaknya sesuai dengan jenis kelamin kepiting.)
sumber
Berikut adalah dua contoh dari pengalaman saya (chemometrics, optical / vibrational / Raman spectroscopy):
Baru-baru ini saya memiliki data spektroskopi optik, di mana> 99% dari total varians dari data mentah disebabkan oleh perubahan cahaya latar belakang (sorotan lebih atau kurang intens pada titik yang diukur, lampu neon dinyalakan / dimatikan, lebih atau kurang awan sebelumnya matahari). Setelah koreksi latar belakang dengan spektra optik dari faktor-faktor yang diketahui (diekstraksi oleh PCA pada data mentah; pengukuran ekstra dilakukan untuk mencakup variasi-variasi tersebut), efek yang kami tertarik muncul di PC 4 dan 5.
PC 1 dan 3 di mana karena efek lain dalam sampel yang diukur, dan PC 2 berkorelasi dengan ujung instrumen yang memanas selama pengukuran.
Dalam pengukuran lain, lensa tanpa koreksi warna untuk rentang spektral yang diukur digunakan. Aberasi kromatik menyebabkan distorsi pada spektrum yang menyebabkan ca. 90% dari total varians data pra-diproses (sebagian besar ditangkap di PC 1).
Untuk data ini, kami butuh waktu cukup lama untuk menyadari apa yang sebenarnya terjadi, tetapi beralih ke tujuan yang lebih baik memecahkan masalah untuk eksperimen selanjutnya.
(Saya tidak dapat menunjukkan detail karena studi ini masih belum dipublikasikan)
sumber
Saya perhatikan bahwa PC dengan varian rendah paling membantu ketika melakukan PCA pada matriks kovarians di mana data yang mendasarinya dikelompokkan atau dikelompokkan dalam beberapa cara. Jika salah satu kelompok memiliki varians rata-rata yang jauh lebih rendah daripada kelompok lain, maka PC terkecil akan didominasi oleh kelompok itu. Namun, Anda mungkin memiliki beberapa alasan untuk tidak ingin membuang hasil dari grup itu.
Di bidang keuangan, pengembalian saham memiliki sekitar 15-25% standar deviasi tahunan. Perubahan dalam hasil obligasi secara historis jauh lebih rendah dari standar deviasi. Jika Anda melakukan PCA pada matriks kovarian pengembalian saham dan perubahan dalam hasil obligasi, maka PC teratas semua akan mencerminkan varians dari saham dan yang terkecil akan mencerminkan varian obligasi. Jika Anda membuang PC yang menjelaskan ikatan tersebut, maka Anda mungkin mengalami masalah. Sebagai contoh, obligasi mungkin memiliki karakteristik distribusi yang sangat berbeda dari saham (ekor yang lebih tipis, sifat varians yang bervariasi waktu, perbedaan pengembalian rata-rata, kointegrasi, dll). Ini mungkin sangat penting untuk dimodelkan, tergantung pada kondisinya.
Jika Anda melakukan PCA pada matriks korelasi, maka Anda mungkin melihat lebih banyak PC menjelaskan ikatan di dekat bagian atas.
sumber
Dalam pembicaraan ini ( slide ), presenter membahas penggunaan PCA untuk membedakan antara fitur variabilitas tinggi dan variabilitas rendah.
Mereka sebenarnya lebih suka fitur variabilitas rendah untuk deteksi anomali, karena perubahan signifikan dalam dimensi variabilitas rendah merupakan indikator kuat perilaku anomali. Contoh motivasi yang mereka berikan adalah sebagai berikut:
sumber