Saya telah menggunakan LDA pada kumpulan dokumen dan menemukan beberapa topik. Output dari kode saya adalah dua matriks yang mengandung probabilitas; satu probabilitas doc-topic dan satu lainnya word-topic. Tapi saya sebenarnya tidak tahu bagaimana menggunakan hasil ini untuk memprediksi topik dokumen baru. Saya menggunakan sampling Gibbs. Adakah yang tahu bagaimana caranya? Terima kasih
text-mining
topic-models
Hossein
sumber
sumber
Jawaban:
Saya akan mencoba 'melipat'. Ini mengacu pada mengambil satu dokumen baru, menambahkannya ke corpus, dan kemudian menjalankan Gibbs sampling hanya pada kata-kata dalam dokumen baru itu , menjaga penugasan topik dokumen lama tetap sama. Ini biasanya konvergen cepat (mungkin 5-10-20 iterasi), dan Anda tidak perlu mengambil sampel korpus lama Anda, jadi ini juga berjalan cepat. Pada akhirnya Anda akan memiliki tugas topik untuk setiap kata dalam dokumen baru. Ini akan memberi Anda distribusi topik dalam dokumen itu.
Di sampler Gibbs Anda, Anda mungkin memiliki sesuatu yang mirip dengan kode berikut:
Pelipatan sama, kecuali Anda mulai dengan matriks yang ada, tambahkan token dokumen baru ke dalamnya, dan lakukan pengambilan sampel hanya untuk token baru. Yaitu:
sumber