Parellel antara LSA dan pLSA

9

Dalam makalah asli pLSA penulis, Thomas Hoffman, menggambar paralel antara struktur data pLSA dan LSA yang ingin saya diskusikan dengan Anda.

Latar Belakang:

Mengambil inspirasi Pengambilan Informasi misalkan kita memiliki koleksi dokumen dan kosakata istilahN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Sebuah korpus X dapat diwakili oleh matriks N×M cooccurences.

Dalam Latent Semantic Analisys oleh SVD , matriks X adalah faktor dalam tiga matriks:

X=UΣVT
mana Σ=diag{σ1,...,σs} dan σi adalah nilai singular dari X dan s adalah pangkat X .

Perkiraan LSA dari X = U Σ ^ V TX

X^=U^Σ^VT^
kemudian dihitung dengan memotong tiga matriks ke beberapa level k<s , seperti yang ditunjukkan pada gambar:

masukkan deskripsi gambar di sini

Di pLSA, pilih kumpulan topik yang tetap (variabel laten) perkiraan dihitung sebagai: mana ketiga matriks adalah yang memaksimalkan kemungkinan model.X X = [ P ( d i | z k ) ] × [ d i a g ( P ( z k ) ] × [ P ( f j | z k ) ] TZ={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Pertanyaan aktual:

Penulis menyatakan bahwa hubungan ini ada:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

dan bahwa perbedaan penting antara LSA dan pLSA adalah fungsi objektif yang digunakan untuk menentukan dekomposisi / pendekatan yang optimal.

Saya tidak yakin dia benar, karena saya berpikir bahwa dua matriks mewakili konsep yang berbeda: dalam LSA itu adalah perkiraan jumlah waktu istilah muncul dalam dokumen, dan dalam pLSA adalah (diperkirakan ) probabilitas bahwa suatu istilah muncul dalam dokumen.X^

Bisakah Anda membantu saya menjelaskan hal ini?

Lebih jauh, misalkan kita telah menghitung dua model pada corpus, diberi dokumen baru , di LSA saya gunakan untuk menghitung perkiraan sebagai: d

d^=d×V×VT
  1. Apakah ini selalu valid?
  2. Mengapa saya tidak mendapatkan hasil yang berarti dengan menerapkan prosedur yang sama pada pLSA?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Terima kasih.

Aslan986
sumber

Jawaban:

12

Untuk kesederhanaan, saya berikan di sini hubungan antara LSA dan faktorisasi matriks non-negatif (NMF), dan kemudian menunjukkan bagaimana modifikasi sederhana dari fungsi biaya mengarah ke pLSA. Seperti yang dinyatakan sebelumnya, LSA dan pLSA adalah metode faktorisasi dalam arti bahwa, hingga normalisasi baris dan kolom, dekomposisi tingkat rendah dari matriks term dokumen:

X=UΣD

menggunakan notasi sebelumnya. Secara lebih sederhana, matriks istilah dokumen dapat ditulis sebagai produk dari dua matriks:

X=ABT

di mana dan . Untuk LSA, korespondensi dengan rumus sebelumnya diperoleh dengan menetapkan dan . B M × s A = U AN×sBM×s B=VA=UΣB=VΣ

Cara mudah untuk memahami perbedaan antara LSA dan NMF adalah dengan menggunakan interpretasi geometris mereka:

  • LSA adalah solusi dari:

    minA,BXABTF2,
  • NMF- adalah solusi dari: L2

    minA0,B0XABTF2,
  • NMF-KL setara dengan pLSA dan merupakan solusi untuk:

    minA0,B0KL(X||ABT).

mana adalah Kullback-Leibler perbedaan antara matriks dan . Sangat mudah untuk melihat bahwa semua masalah di atas tidak memiliki solusi yang unik, karena orang dapat mengalikan dengan angka positif dan membagi XYABAp(zk|di)XBp(fj|zk)AAp(di|zk)KL(X||Y)=ijxijlogxijyijXYABdengan nomor yang sama untuk mendapatkan nilai tujuan yang sama. Oleh karena itu, - dalam kasus LSA, orang biasanya memilih basis ortogonal yang diurutkan dengan menurunkan nilai eigen. Ini diberikan oleh dekomposisi SVD dan mengidentifikasi solusi LSA, tetapi pilihan lain akan dimungkinkan karena tidak memiliki dampak pada sebagian besar operasi (persamaan cosinus, formula smoothing yang disebutkan di atas, dll). - dalam kasus NMF, dekomposisi ortogonal tidak dimungkinkan, tetapi baris biasanya dibatasi menjadi satu, karena memiliki interpretasi probabilistik langsung sebagai . Jika selain itu, baris dinormalisasi (yaitu jumlah ke satu), maka baris harus dijumlahkan menjadi satu, yang mengarah ke interpretasi probabilistikAp(zk|di)XBp(fj|zk) . Ada sedikit perbedaan dengan versi pLSA yang diberikan dalam pertanyaan di atas karena kolom dibatasi untuk dijumlahkan menjadi satu, sehingga nilai-nilai dalam adalah , tetapi perbedaannya hanyalah perubahan parametrization , masalahnya tetap sama.AAp(di|zk)

Sekarang, untuk menjawab pertanyaan awal, ada sesuatu yang halus dalam perbedaan antara LSA dan pLSA (dan algoritma NMF lainnya): kendala non-negatif menginduksi "efek clustering" yang tidak valid dalam kasus LSA klasik karena Nilai Singular Nilai Solusi dekomposisi invarian rotasi. Kendala non-negatif entah bagaimana mematahkan invarian rotasi ini dan memberikan faktor dengan semacam makna semantik (topik dalam analisis teks). Makalah pertama yang menjelaskannya adalah:

Donoho, David L., dan Victoria C. Stodden. "Kapan faktorisasi matriks non-negatif memberikan dekomposisi yang benar menjadi beberapa bagian?" Kemajuan dalam sistem pemrosesan informasi saraf 16: prosiding konferensi 2003. MIT Press, 2004. [tautan]

Kalau tidak, hubungan antara PLSA dan NMF dijelaskan di sini:

Ding, Chris, Tao Li, dan Wei Peng. "Pada kesetaraan antara faktorisasi matriks non-negatif dan pengindeksan semantik laten probabilistik." Statistik Komputasi & Analisis Data 52,8 (2008): 3913-3927. [tautan]

Guillaume
sumber