Apa perbedaan antara analisis semantik laten (LSA), pengindeksan semantik laten (LSI), dan dekomposisi nilai singular (SVD)?

15

Istilah-istilah ini sering dilontarkan bersama, tetapi saya ingin tahu apa yang Anda pikirkan perbedaannya, jika ada.

Terima kasih

Neil McGuigan
sumber

Jawaban:

12

LSA dan LSI sebagian besar digunakan secara sinonim, dengan komunitas pengambilan informasi biasanya menyebutnya sebagai LSI. LSA / LSI menggunakan SVD untuk menguraikan matriks dokumen-jangka A menjadi matriks konsep-jangka U, matriks nilai singular S, dan matriks dokumen-konsep V dalam bentuk: A = USV '. Halaman wikipedia memiliki deskripsi rinci tentang pengindeksan semantik laten .

ebony1
sumber
8

Khususnya ketika LSA dan LSI menggunakan SVD untuk melakukan sihirnya, ada metode yang secara komputasional dan lebih sederhana yang disebut HAL (Hyperspace Analogue to Language) yang menyaring teks yang melacak konteks sebelum dan sesudahnya. Vektor diekstraksi dari matriks kejadian bersama ini (sering kali berbobot) dan kata-kata spesifik dipilih untuk mengindeks ruang semantik. Dalam banyak hal saya diberikan untuk memahaminya berkinerja sebaik LSA tanpa memerlukan langkah rumit SVD secara matematis / konseptual. Lihat Lund & Burgess, 1996 untuk detailnya.

russellpierce
sumber
4
... merekapitulasi pekerjaan sebelumnya oleh Finch dan Chater (1992, 1994), Schütze (1993), dan lainnya. HAL, LSA, dan karya seni sebelumnya lainnya dengan menghasilkan ukuran kesamaan untuk kata-kata dengan menghitung kesamaan kontekstual mereka. (Ini adalah kesamaan 'urutan kedua' Shephard: kesamaan 'urutan pertama' adalah ketika kata a muncul di dekat kata b; kesamaan 'urutan kedua' adalah bahwa kata a terjadi di dekat jenis kata yang sama seperti kata b lakukan).
conjugateprior
3
Membandingkan dan kontras: Untuk LSA konteksnya adalah dokumen lengkap. Untuk HAL dan yang lainnya, ini adalah jendela teks yang mengelilingi kata target. LSA mengukur jarak dalam subruang linier yang diekstraksi melalui SVD / PCA, dan kesepakatan lainnya dengan jarak dalam ruang asli jumlah kata di sekitarnya.
conjugateprior
6

NMF dan SVD keduanya adalah algoritma faktorisasi matriks. Wikipedia memiliki beberapa informasi yang relevan tentang NMF .

SVD dan PCA saling terkait erat. Sebagai permulaan, PCA hanyalah komposisi awal dari korelasi. SVD adalah generalisasi komposisi eigend ke matriks non-kuadrat. Nilai singular adalah akar kuadrat dari nilai eigen dari matriks dikalikan dengan transposnya (menjadikannya kuadrat, dan dapat menerima komposisi eigend). Selanjutnya, jika matriksnya normal (SEBUAHSEBUAH=SEBUAHSEBUAH), nilai singular hanyalah nilai absolut dari nilai eigen. Bagaimanapun, nilai singular adalah non-negatif, dan kehilangan tanda nilai eigen adalah harga yang Anda bayar untuk dapat bekerja dengan matriks non-square.

Responden lain telah meliput LSI / LSA ...

Emre
sumber
itu harus matriks kovarians, bukan? bukan matriks korelasi.
Rafael
Ya, kecuali Anda memusatkan variabel Anda terlebih dahulu.
Emre
setelah normalisasi variabel, itu menjadi matriks korelasi?
Rafael
Normalisasi berpusat pada penskalaan, jadi itu berbeda.
Emre