Kapan memilih PCA vs. LSA / LSI

9

Pertanyaan:

Apakah ada pedoman umum sehubungan dengan karakteristik data input, yang dapat digunakan untuk memutuskan antara menerapkan PCA versus LSA / LSI?

Ringkasan singkat PCA vs LSA / LSI:

Principal Component Analysis (PCA) dan Latent Semantic Analysis (LSA) atau Latent Semantic Indexing (LSI) serupa dalam arti bahwa semuanya bergantung secara mendasar pada penerapan Singular Value Decomposition (SVD) ke sebuah matriks.

LSA dan LSI, sejauh yang saya tahu, adalah hal yang sama. LSA berbeda dari PCA tidak pada dasarnya, tetapi dalam hal cara entri matriks pra-diproses sebelum menerapkan SVD.

Dalam LSA langkah preprocessing biasanya melibatkan menormalkan matriks hitungan di mana kolom sesuai dengan 'dokumen' dan baris sesuai dengan beberapa jenis kata. Entri dapat dianggap sebagai semacam jumlah kata-kejadian-untuk-dokumen (dinormalisasi).

Dalam PCA langkah preprocessing melibatkan penghitungan matriks kovarians dari matriks asli. Matriks asli secara konseptual lebih 'umum' daripada dalam kasus LSA. Di mana PCA terkait, kolom biasanya dikatakan merujuk ke vektor sampel generik dan baris dikatakan merujuk ke variabel individual yang sedang diukur. Matriks kovarians menurut definisi kuadrat dan simetris dan sebenarnya tidak perlu menerapkan SVD, karena matriks kovarians dapat didekomposisi melalui diagonalisasi. Khususnya, matriks PCA hampir pasti akan lebih padat daripada varian LSA / LSI - nol entri hanya akan terjadi di mana kovarians antara variabel adalah nol, di situlah variabel independen.

Akhirnya satu lagi poin deskriptif yang dibuat cukup sering untuk membedakan keduanya adalah itu

LSA mencari subruang linear terbaik dalam norma Frobenius, sementara PCA bertujuan untuk subruang linear affine terbaik.

Bagaimanapun, perbedaan dan persamaan teknik ini telah diperdebatkan dengan panas di berbagai forum di seluruh internet, dan jelas ada beberapa perbedaan yang menonjol, dan jelas kedua teknik ini akan menghasilkan hasil yang berbeda.

Jadi saya ulangi pertanyaan saya: Apakah ada pedoman umum sehubungan dengan karakteristik data input, yang dapat digunakan untuk memutuskan antara menerapkan PCA versus LSA / LSI? Jika saya memiliki sesuatu yang menyerupai term-document matrix akankah LSA / LSI selalu menjadi pilihan terbaik? Mungkinkah berharap untuk mendapatkan hasil yang lebih baik dalam beberapa kasus dengan menyiapkan matriks istilah / doc untuk LSA / LSI dan kemudian menerapkan PCA ke hasilnya, daripada langsung menerapkan SVD?

qi5d02lx
sumber
1
Deskripsi LSA / LSI Anda sangat mirip dengan saya dengan analisis korespondensi (CA) dan saya curiga akronim penambangan teks LSA adalah singkatan dari CA dalam statistik. CA dan PCA memang sangat terkait erat.
ttnphns
Hei, hanya ingin tahu apakah Anda pernah menemukan jawaban untuk ini, saya punya pertanyaan yang sama persis.
Pushpendre
Apa yang sedang Anda coba lakukan? Ini mungkin memberikan beberapa gagasan tentang yang mungkin lebih berlaku. Apakah Anda tertarik untuk menemukan pola teks dan korelasi semantik atau ruang laten dimensi yang lebih rendah dalam hal dokumen dan istilah?
ui_90jax

Jawaban:

2

Satu perbedaan yang saya catat adalah bahwa PCA hanya dapat memberi Anda istilah-jangka atau kesamaan Dokumen-Dokumen (tergantung pada bagaimana Anda mengalikan matriks coreference atau ) tetapi SVD / LSA dapat memberikan keduanya karena Anda memiliki vektor eigen dari kedua dan . Sebenarnya saya tidak melihat alasan untuk menggunakan PCA melebihi SVD.AAAAAAAA

Pushpendre
sumber