Model topik untuk dokumen pendek

14

Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk pada data jenis ini.

Adakah yang tahu ada pekerjaan yang dilakukan di daerah ini? Makalah ini berbicara tentang menerapkan LDA ke Twitter, tapi saya benar-benar tertarik pada apakah ada algoritma lain yang berkinerja lebih baik dalam konteks dokumen pendek.

Martin O'Leary
sumber
2
Twitter adalah dataset yang sangat sulit untuk pemodelan topik tidak hanya karena ukuran kecil 'dokumen', tetapi juga karena jenis teks. Orang-orang cenderung menggunakan berbagai tulisan singkat yang membuat mengidentifikasi kejadian bersama bahkan lebih sulit.
Nick
Lihat daftar makalah bagus dan kode sumber yang sesuai untuk pemodelan topik pada Tweet di: quora.com/...
NQD

Jawaban:

7

Ini adalah jawaban yang terlambat, tetapi dapat bermanfaat bagi orang lain yang mencari penelitian dan alat terkait untuk masalah ini:

  1. Weiwei Guo dari Columbia menerapkan kode untuk pemodelan topik teks pendek. Dia menggambarkan implementasi dalam makalah "Modeling Sentences in the Latent Space" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) dan kodenya tersedia di sini: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Meskipun ini bukan pemodelan topik, jika Anda memiliki tugas klasifikasi yang melibatkan potongan teks pendek, Anda dapat menggunakan LibShortText. Dari deskripsi situs web mereka

"LibShortText adalah alat sumber terbuka untuk klasifikasi dan analisis teks pendek. Ia dapat menangani klasifikasi, misalnya, judul, pertanyaan, kalimat, dan pesan pendek ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

DPS
sumber
6

Meskipun saya tidak terlalu akrab dengan karyanya, saya tahu Jacob Eisenstein telah melakukan pekerjaan dalam analisis teks dan model grafis dalam data twitter. Secara khusus, makalah ini menjelaskan aplikasi pemodelan topik dalam data twitter dan microblog.

Sunting: sebenarnya setelah membaca makalah sedikit lagi, mereka menyatakan:

Namun, pesan rata-rata di Twitter hanya enam belas kata token, yang terlalu jarang untuk pemodelan topik tradisional; alih-alih, kami mengumpulkan semua pesan dari pengguna tertentu ke dalam satu dokumen.

Jadi, mungkin makalah itu mungkin tidak banyak membantu, mungkin masih ada publikasi Eisenstein lainnya yang dapat mengarahkan Anda ke arah yang benar.

Junier
sumber
6

Sebuah makalah baru-baru ini yang disebut " model topik biterm untuk teks pendek " (WWW13) telah membuat beberapa kemajuan pada topik ini, dan ini adalah kodenya

Xiaohui Yan
sumber
2
Saya mengkonfirmasi bahwa BiTerm LDA bekerja cukup baik untuk pemodelan topik teks ucapan pendek (3-8 kata) dan klasifikasi selanjutnya.
Vladislavs Dovgalecs