Komponen varians rendah dalam PCA, apakah mereka benar-benar hanya noise? Apakah ada cara untuk mengujinya?

18

Saya mencoba memutuskan apakah komponen PCA akan dipertahankan, atau tidak. Ada trilyun kriteria berdasarkan besarnya nilai eigen, dijelaskan dan dibandingkan misalnya di sini atau di sini .

Namun, dalam aplikasi saya, saya tahu bahwa nilai eigen kecil (est) akan kecil dibandingkan dengan nilai eigen besar (st) dan kriteria berdasarkan besarnya semua akan menolak yang kecil (est) satu. Ini bukan yang saya inginkan. Apa yang saya tertarik: apakah ada metode yang diketahui yang memperhitungkan komponen yang sesuai dari nilai eigen yang kecil, dalam arti: apakah itu benar-benar "hanya" suara seperti yang tersirat dalam semua buku pelajaran, atau adakah "sesuatu" potensial bunga tersisa? Jika benar-benar noise, hapus, atau simpan, terlepas dari besarnya nilai eigen.

Apakah ada semacam uji keacakan atau distribusi yang ditetapkan untuk komponen dalam PCA yang tidak dapat saya temukan? Atau ada yang tahu alasan bahwa ini akan menjadi ide konyol?

Memperbarui

Histogram (hijau) dan perkiraan normal (biru) komponen dalam dua kasus penggunaan: sekali mungkin benar-benar noise, sekali mungkin bukan "hanya" suara (ya, nilainya kecil, tetapi mungkin tidak acak). Nilai singular terbesar adalah ~ 160 dalam kedua kasus, yang terkecil, yaitu nilai singular ini, adalah 0,0xx - terlalu kecil untuk metode cut-off mana pun.

Apa yang saya cari adalah cara untuk meresmikan ini ...

mungkin benar-benar "hanya" suara mungkin tidak berisik tetapi mungkin mengandung bit yang menarik

pca Daniel
sumber

2

Banyak tes yang Anda rujuk memiliki persis properti yang Anda minta: mereka mencoba untuk membedakan "noise" dari "signal."

whuber

2

Saya baru-baru ini tertarik pada pertanyaan serupa, tetapi dalam situasi tertentu ketika Anda memiliki beberapa pengukuran untuk setiap titik data. Lihat Memilih jumlah komponen PCA ketika beberapa sampel untuk setiap titik data tersedia . Mungkin itu berlaku untuk kasus Anda juga?

Amuba kata Reinstate Monica

Menggunakan tes distribusi pada PC untuk memutuskan keacakan suara mereka sebagai ide yang sangat menarik (yang belum pernah saya lihat diterapkan); sesuatu yang serupa dilakukan di ICA, yang secara khusus mencari komponen non-Gaussian secara maksimal. Melakukan PCA dan kemudian membuang komponen yang "terlalu Gaussian" memiliki rasa ICA dan mungkin benar-benar berfungsi!

Amuba mengatakan Reinstate Monica

20

Salah satu cara menguji keacakan dari komponen utama kecil (PC) adalah memperlakukannya seperti sinyal alih-alih noise: yaitu, coba memprediksi variabel lain yang menarik dengannya. Ini pada dasarnya adalah komponen utama regresi (PCR) .

$R^2$ $MSE$

Model teknik kimia menggunakan PC 1, 3, 4, 6, 7, dan 8 dari 9 total ^{( Smith & Campbell, 1980 )}
Model hujan menggunakan PC 8, 2, dan 10 (sesuai urutan kepentingan) dari 10 ^{( Kung & Sharif, 1980 )}
Model ekonomi menggunakan PC 4 dan 5 dari 6 ^{(Hill, Fomby, & Johnson, 1977)}

PC dalam contoh yang tercantum di atas diberi nomor sesuai dengan ukuran peringkat eigennya. Jolliffe (1982) menjelaskan model cloud di mana komponen terakhir berkontribusi paling besar. Dia menyimpulkan:

Contoh di atas telah menunjukkan bahwa tidak perlu untuk menemukan data yang tidak jelas atau aneh agar beberapa komponen utama terakhir menjadi penting dalam regresi komponen utama. Alih-alih, tampaknya contoh-contoh semacam itu agak umum dalam praktik. Hill et al. (1977) memberikan diskusi yang menyeluruh dan berguna tentang strategi untuk memilih komponen utama yang seharusnya mengubur selamanya ide seleksi hanya berdasarkan ukuran varians. Sayangnya ini tampaknya tidak terjadi, dan idenya mungkin lebih luas sekarang daripada 20 tahun yang lalu.

$SS$

$(p-1)$ $\text{Y}$

$\text{X}$

Saya berutang jawaban ini kepada @Scortchi, yang mengoreksi kesalahpahaman saya sendiri tentang pemilihan PC di PCR dengan beberapa komentar yang sangat membantu, termasuk: " Jolliffe (2010) mengulas cara lain memilih PC." Referensi ini mungkin merupakan tempat yang baik untuk mencari ide lebih lanjut.

Referensi

^{- Gunst, RF, & Mason, RL (1977). Estimasi bias dalam regresi: evaluasi menggunakan mean squared error. Jurnal Asosiasi Statistik Amerika, 72 (359), 616-628.

- Hadi, AS, & Ling, RF (1998). Beberapa catatan peringatan tentang penggunaan regresi komponen utama. The American Statistician, 52 (1), 15-19. Diperoleh dari http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .

- Hawkins, DM (1973). Pada penyelidikan regresi alternatif dengan analisis komponen utama. Statistik Terapan, 22 (3), 275–286.

- Hill, RC, Fomby, TB, & Johnson, SR (1977). Norma pemilihan komponen untuk regresi komponen utama.Komunikasi dalam Statistik - Teori dan Metode, 6 (4), 309–334.

- Hotelling, H. (1957). Hubungan metode statistik multivariat yang lebih baru dengan analisis faktor. British Journal of Statistics Psychology, 10 (2), 69-79.

- Jackson, E. (1991). Panduan pengguna untuk komponen utama . New York: Wiley.

- Jolliffe, IT (1982). Catatan tentang penggunaan komponen utama dalam regresi. Statistik Terapan, 31 (3), 300–303. Diperoleh dari http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

- Jolliffe, IT (2010).Analisis komponen utama (2nd ed.). Peloncat.

- Kung, EC, & Sharif, TA (1980). Perkiraan regresi dari awal monsun musim panas India dengan kondisi udara bagian atas. Jurnal Meteorologi Terapan, 19 (4), 370–380. Diperoleh dari http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .

- Lott, WF (1973). Set optimal pembatasan komponen utama pada regresi kuadrat-terkecil. Komunikasi dalam Statistik - Teori dan Metode, 2 (5), 449-464.

- Mason, RL, & Gunst, RF (1985). Memilih komponen utama dalam regresi. Statistik & Surat Probabilitas, 3 (6), 299–301.

- Massy, WF (1965). Regresi komponen utama dalam penelitian statistik eksplorasi. Jurnal Asosiasi Statistik Amerika, 60 (309), 234–256. Diperoleh dari http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .

- Smith, G., & Campbell, F. (1980). Sebuah kritik terhadap beberapa metode regresi ridge. Jurnal Asosiasi Statistik Amerika, 75 (369), 74–81. Diperoleh dari https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .}

Nick Stauner
sumber

4

... dan tidak ada jaminan apa pun bahwa efek yang Anda butuhkan untuk menyelesaikan masalah Anda lebih besar daripada efek lain yang hanya noise wrt. masalah yang dihadapi. Saya telah melihat data di mana 95%

variansnya

3

Ulasan yang sangat bagus, tetapi (maaf berdalih lagi) langkah Hadi & Ling, memilih PC untuk mempertahankan dalam regresi berdasarkan hubungan kuat mereka terhadap respons, sama berbahayanya dengan memilih prediktor asli berdasarkan pada hubungan kuat mereka dengan respons. Validasi silang sangat penting & penyusutan lebih baik. Secara pribadi saya lebih suka menggunakan PCA secara bijaksana bersama dengan pengetahuan subjek untuk memandu pengurangan data pada prediktor, buta terhadap respons, misalnya menggunakan PC pertama kelompok prediktor yang mengukur banyak hal yang sama, atau ditentukan oleh pengelompokan variabel.

Scortchi

2

+1 (sudah lama) untuk jawaban ini, tetapi setelah meninjau utas ini sekarang, saya harus mengatakan bahwa jawaban ini hampir tidak menjawab pertanyaan asli hampir sama sekali: OP bertanya tentang apakah seseorang dapat menggunakan tes distribusi pada komponen untuk menilai keacakan mereka. Lihat juga komentar terakhir saya ke OP.

Amuba mengatakan Reinstate Monica

2

Menambah jawaban @Nick Stauner, ketika Anda berurusan dengan pengelompokan ruang bagian, PCA sering merupakan solusi yang buruk.

Saat menggunakan PCA, sebagian besar orang khawatir tentang vektor eigen dengan nilai eigen tertinggi, yang mewakili arah ke arah mana data 'paling melebar'. Jika data Anda terdiri dari subruang kecil, PCA akan benar-benar mengabaikannya karena mereka tidak banyak berkontribusi pada varians data keseluruhan.

Jadi, vektor eigen kecil tidak selalu merupakan noise murni.

felipeduque
sumber

Komponen varians rendah dalam PCA, apakah mereka benar-benar hanya noise? Apakah ada cara untuk mengujinya?

Memperbarui

Jawaban: