Bagaimana tepatnya PCA yang jarang lebih baik daripada PCA?

24

Saya belajar tentang PCA beberapa kuliah yang lalu di kelas dan dengan menggali lebih banyak tentang konsep yang menarik ini, saya mengetahui tentang PCA yang jarang.

Saya ingin bertanya, jika saya tidak salah, ini adalah PCA yang jarang: Di PCA, jika Anda memiliki titik data dengan variabel , Anda dapat mewakili setiap titik data dalam ruang dimensi sebelum menerapkan PCA. Setelah menerapkan PCA, Anda dapat kembali merepresentasikannya dalam ruang dimensi yang sama, tetapi, kali ini, komponen utama pertama akan berisi varian paling banyak, yang kedua akan berisi arah varian paling kedua dan seterusnya. Jadi Anda dapat menghilangkan beberapa komponen utama terakhir, karena mereka tidak akan menyebabkan banyak kehilangan data, dan Anda dapat memampatkan data. Kanan? $n$ $p$ $p$

Jarang PCA memilih komponen utama sedemikian sehingga komponen ini mengandung lebih sedikit nilai bukan nol dalam koefisien vektor mereka.

Bagaimana ini seharusnya membantu Anda menafsirkan data dengan lebih baik? Adakah yang bisa memberi contoh?

machine-learning pca sparse GrowinMan
sumber

Hello @GrowinMan! Sudahkah Anda melihat jawaban saya untuk pertanyaan ini? Apakah Anda pikir itu menjawabnya? Jika tidak, jangan ragu untuk meminta klarifikasi, atau mungkin mempertimbangkan mengedit pertanyaan Anda untuk membuatnya lebih tepat. Jika ya, pertimbangkan untuk membatalkan & "menerimanya" dengan mengeklik tanda centang hijau di dekat Anda. Saya perhatikan bahwa Anda memiliki nol suara dan nol utas yang diterima di sini di CrossValidated.

Amuba mengatakan Reinstate Monica

@amoeba Terima kasih telah menunjukkan itu. Belum masuk untuk sementara waktu dan saya juga agak tidak terhubung dengan pembelajaran mesin. Saya pasti akan membaca jawaban Anda lagi, dan menandai jawaban di sini pada akhir pekan

GrowinMan

Tidak masalah. Saya tidak sengaja menemukan thread lama ini dan berpikir untuk menjatuhkan Anda.

Amuba kata Reinstate Monica

Hello @GrowinMan! :-) Datang di utas lama ini lagi. Jika Anda masih merasa pertanyaan ini belum terselesaikan, jangan ragu untuk meminta klarifikasi. Jika tidak, pertimbangkan untuk membatalkan & "menerima" salah satu jawaban dengan mengeklik tanda centang hijau di dekatnya. Saya perhatikan bahwa Anda memiliki nol suara dan nol utas yang diterima di sini di CrossValidated.

Amuba mengatakan Reinstate Monica

29

Apakah PCA jarang lebih mudah diinterpretasikan daripada PCA standar atau tidak, tergantung pada dataset yang Anda selidiki. Inilah yang saya pikirkan: kadang-kadang orang lebih tertarik pada proyeksi PCA (representasi data dimensi rendah), dan kadang-kadang - pada sumbu utama; hanya dalam kasus terakhir PCA jarang dapat memiliki manfaat untuk interpretasi. Biarkan saya memberi beberapa contoh.

Saya misalnya bekerja dengan data saraf (rekaman simultan dari banyak neuron) dan saya menerapkan PCA dan / atau teknik reduksi dimensi terkait untuk mendapatkan representasi dimensi rendah dari aktivitas populasi saraf. Saya mungkin memiliki 1000 neuron (yaitu data saya hidup dalam ruang 1000-dimensi) dan ingin memproyeksikannya pada tiga sumbu utama terkemuka. Apa sumbu ini, sama sekali tidak relevan bagi saya, dan saya tidak punya niat untuk "menafsirkan" sumbu ini dengan cara apa pun. Yang saya minati, adalah proyeksi 3D (karena aktivitasnya tergantung pada waktu, saya mendapatkan lintasan di ruang 3D ini). Jadi saya baik-baik saja jika setiap sumbu memiliki semua 1000 koefisien nol.

$0$

Anda dapat menemukan lebih banyak contoh dan beberapa diskusi tentang kasus terakhir di makalah Sparse PCA 2006 oleh Zou et al. Namun, perbedaan antara yang pertama dan yang terakhir, saya tidak melihat secara eksplisit dibicarakan di mana pun (walaupun mungkin memang begitu).

amuba kata Reinstate Monica
sumber

3

Ini adalah penjelasan yang bagus. Contoh lain dari data "nyata" Anda adalah survei dengan banyak pertanyaan dan Anda ingin tahu pertanyaan mana yang paling penting dan mungkin beberapa kombinasi dari mereka benar-benar bertanya tentang satu topik.

bdeonovic

1

Jadi Anda dapat menghilangkan beberapa komponen utama terakhir, karena mereka tidak akan menyebabkan banyak kehilangan data, dan Anda dapat memampatkan data. Kanan?

$N$ $V_1, V_2, \cdots , V_N$ $N$ $PC_1, PC_2, \cdots , PC_N$ $V_i$ $PC_i$

$PC_i$ $V_j, V_l, \cdots$

$(PC_i, PC_{j})$ $N$

Leon-Alph
sumber

Bagaimana!? Saya tidak melihat bagaimana akan mudah untuk menafsirkan dalam kasus ini sebagai lawan ketika Komponen Utama tidak jarang.

GrowinMan

2

Cara saya berpikir tentang ini adalah bahwa kita sering melakukan pengelompokan variabel sebelum PC untuk membuat hasil lebih dapat diartikan. Sparse PC menggabungkan pengelompokan variabel dan PC menjadi satu langkah, yang membutuhkan lebih sedikit keputusan dari pihak analis.

Frank Harrell

1

Untuk memahami kelebihan sparsity di PCA, Anda perlu memastikan Anda tahu perbedaan antara "memuat" dan "variabel" (bagi saya nama-nama ini agak arbitrer, tapi itu tidak penting).

Katakanlah Anda memiliki matriks data nxp X , di mana n adalah jumlah sampel. SVD X = USV ' , memberi Anda tiga matriks. Menggabungkan dua Z pertama = AS memberi Anda matriks Komponen Utama. Katakanlah penurunan peringkat Anda adalah k , maka Z adalah nxk . Z pada dasarnya adalah matriks data Anda setelah pengurangan dimensi. Secara historis,

Entri komponen utama Anda (alias Z = AS ) disebut variabel.

Di sisi lain, V (yang merupakan pxk ) berisi vektor pemuatan pokok dan isinya disebut pemuatan utama. Mengingat sifat-sifat PCA, mudah untuk menunjukkan bahwa Z = XV . Ini berarti:

Komponen utama diturunkan dengan menggunakan beban utama sebagai koefisien dalam kombinasi linear dari matriks data X Anda .

Sekarang definisi-definisi ini keluar dari jalan, kita akan melihat sparsity. Sebagian besar makalah (atau setidaknya sebagian besar yang saya temui), memberlakukan sparsity pada pemuatan utama (alias V ). Keuntungan dari sparsity adalah itu

V yang jarang akan memberi tahu kita variabel mana (dari ruang fitur p- dimensi asli ) yang layak dijaga. Ini disebut interpretabilitas.

Ada juga interpretasi untuk menegakkan sparsity pada entri Z , yang saya lihat orang menyebutnya "variabel jarang PCA" ", tapi itu jauh kurang populer dan sejujurnya saya belum terlalu memikirkannya.

idnavid
sumber

Bagaimana tepatnya PCA yang jarang lebih baik daripada PCA?

Jawaban: