Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk pada data jenis ini.
Adakah yang tahu ada pekerjaan yang dilakukan di daerah ini? Makalah ini berbicara tentang menerapkan LDA ke Twitter, tapi saya benar-benar tertarik pada apakah ada algoritma lain yang berkinerja lebih baik dalam konteks dokumen pendek.
references
text-mining
topic-models
natural-language
Martin O'Leary
sumber
sumber
Jawaban:
Ini adalah jawaban yang terlambat, tetapi dapat bermanfaat bagi orang lain yang mencari penelitian dan alat terkait untuk masalah ini:
Weiwei Guo dari Columbia menerapkan kode untuk pemodelan topik teks pendek. Dia menggambarkan implementasi dalam makalah "Modeling Sentences in the Latent Space" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) dan kodenya tersedia di sini: http: // www .cs.columbia.edu / ~ weiwei / code.html
Meskipun ini bukan pemodelan topik, jika Anda memiliki tugas klasifikasi yang melibatkan potongan teks pendek, Anda dapat menggunakan LibShortText. Dari deskripsi situs web mereka
"LibShortText adalah alat sumber terbuka untuk klasifikasi dan analisis teks pendek. Ia dapat menangani klasifikasi, misalnya, judul, pertanyaan, kalimat, dan pesan pendek ..."
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
sumber
Meskipun saya tidak terlalu akrab dengan karyanya, saya tahu Jacob Eisenstein telah melakukan pekerjaan dalam analisis teks dan model grafis dalam data twitter. Secara khusus, makalah ini menjelaskan aplikasi pemodelan topik dalam data twitter dan microblog.
Sunting: sebenarnya setelah membaca makalah sedikit lagi, mereka menyatakan:
Jadi, mungkin makalah itu mungkin tidak banyak membantu, mungkin masih ada publikasi Eisenstein lainnya yang dapat mengarahkan Anda ke arah yang benar.
sumber
Sebuah makalah baru-baru ini yang disebut " model topik biterm untuk teks pendek " (WWW13) telah membuat beberapa kemajuan pada topik ini, dan ini adalah kodenya
sumber