Pertanyaan saya umumnya pada Dekomposisi Nilai Singular (SVD), dan khususnya tentang Latent Semantic Indexing (LSI).
Katakanlah, saya memiliki yang berisi frekuensi 5 kata untuk 7 dokumen.
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
Saya mendapatkan faktorisasi matriks untuk dengan menggunakan SVD: .A = U ⋅ D ⋅ V T
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
Dalam 1 dan 2 , dinyatakan bahwa:
memberikan kata kesamaan matriks , di mana baris mewakili kata-kata yang berbeda.
WordSim = s$u %*% S
memberikan matriks kemiripan dokumen di mana kolom mewakili dokumen yang berbeda.
DocSim = S %*% t(s$v)
Pertanyaan:
- Secara aljabar, mengapa dan kata / dokumen matriks kesamaan? Apakah ada penjelasan yang intuitif?D o c S i m S
- Berdasarkan contoh R yang diberikan, dapatkah kita membuat penghitungan jumlah / kemiripan kata intuitif dengan hanya melihat dan (tanpa menggunakan kesamaan cosinus atau koefisien korelasi antara baris / kolom)?D o c S i m
D=svd(A)$d
dalam R mengembalikan akar kuadrat dari nilai-nilai eigen non-nol, maka saya menggunakan . Saya tidak punya masalah dengan aspek reduksi dimensi, dan saya mengerti perkiraan peringkat lebih rendah dari A dapat dibentuk seperti yang mereka jelaskan. Saya menemukan jawaban di tautan ini sebagian menjawab pertanyaan saya.Jawaban:
Matriks faktorisasi menggunakan SVD menguraikan matriks input menjadi tiga bagian:
Ketika kata-kata atau dokumen berbeda-beda itu menunjukkan bahwa mereka serupa. Misalnya, jika kata dokter lebih sering muncul dalam dokumen, kata perawat dan rumah sakit juga lebih banyak muncul. Ini ditunjukkan oleh vektor singular kiri berskala pertama, kolom pertama . Anda dapat memvalidasi hasil ini dengan melihat data input. Perhatikan bahwa ketika perawat terjadi, rumah sakit juga terjadi dan ketika itu tidak terjadi, rumah sakit juga tidak terjadi.WordSim
sumber