Dapatkah LDA digunakan untuk mendeteksi topik dokumen A SINGLE?
Ya, dalam representasi khusus dari 'topik', dan diberikan kumpulan pelatihan dokumen (biasanya terkait).
LDA mewakili topik sebagai distribusi atas kata-kata, dan dokumen sebagai distribusi atas topik. Artinya, salah satu tujuan LDA adalah untuk sampai pada representasi probabilistik dari setiap dokumen sebagai satu set topik. Misalnya, implementasi LDA di gensim
dapat mengembalikan representasi ini untuk dokumen yang diberikan.
Tetapi ini tergantung pada dokumen lain dalam corpus: Setiap dokumen yang diberikan akan memiliki representasi yang berbeda jika dianalisis sebagai bagian dari corpus yang berbeda.
Itu biasanya tidak dianggap sebagai kekurangan: Sebagian besar aplikasi LDA fokus pada dokumen terkait. The kertas memperkenalkan LDA berlaku untuk dua corpora, salah satu dari Associated Press artikel dan salah satu abstrak artikel ilmiah. Posting blog Edwin Chen yang didekati dengan baik menerapkan LDA pada tahap email dari masa Sarah Palin sebagai gubernur Alaska.
Jika aplikasi Anda menuntut pemisahan dokumen menjadi kelas yang diketahui dan saling eksklusif, maka topik yang diturunkan LDA dapat digunakan sebagai fitur untuk klasifikasi. Memang, makalah awal tidak hanya dengan AP corpus, dengan hasil yang baik.
Terkait, demonstrasi Chen tidak memilah dokumen ke dalam kelas eksklusif, tetapi sebagian besar dokumennya memusatkan kemungkinan mereka pada topik LDA tunggal. Seperti yang dijelaskan David Blei dalam ceramah video ini , prior Dirichlet dapat dipilih untuk mendukung sparsity. Secara lebih sederhana, "sebuah dokumen dihukum karena menggunakan banyak topik," seperti yang dikatakan slide-nya. Ini tampaknya LDA terdekat bisa sampai ke satu topik, tanpa pengawasan, tetapi tentu saja tidak menjamin setiap dokumen akan diwakili seperti itu.