Ekstraksi kata kunci / frasa dari Teks menggunakan perpustakaan Deep Learning

20

Mungkin ini terlalu luas, tetapi saya mencari referensi tentang bagaimana menggunakan pembelajaran mendalam dalam tugas meringkas teks.

Saya sudah menerapkan peringkasan teks menggunakan pendekatan frekuensi kata standar dan peringkat kalimat, tetapi saya ingin mengeksplorasi kemungkinan menggunakan teknik pembelajaran yang mendalam untuk tugas ini. Saya juga telah melalui beberapa implementasi yang diberikan di wildml.com menggunakan Convolutional Neural Networks (CNN) untuk analisis sentimen; Saya ingin tahu bagaimana orang dapat menggunakan perpustakaan seperti TensorFlow atau Theano untuk peringkasan teks dan ekstraksi kata kunci. Sudah sekitar satu minggu sejak saya mulai bereksperimen dengan jaring saraf, dan saya sangat senang melihat bagaimana kinerja perpustakaan ini dibandingkan dengan pendekatan saya sebelumnya untuk masalah ini.

Saya terutama mencari beberapa makalah menarik dan proyek github terkait dengan peringkasan teks menggunakan kerangka kerja ini. Adakah yang bisa memberi saya beberapa referensi?

neural-network text-mining deep-learning beginner tensorflow shanky_thebearer
sumber

15

The Google Penelitian Blog harus membantu dalam konteks TensorFlow .

Pada artikel di atas, ada referensi ke dataset Annotated English Gigaword yang secara rutin digunakan untuk peringkasan teks.

Makalah 2014 oleh Sutskever et al yang berjudul Sequence to Sequence Learning dengan Neural Networks bisa menjadi awal yang berarti dalam perjalanan Anda karena ternyata untuk teks yang lebih pendek, summarization dapat dipelajari ujung-ke-ujung dengan teknik pembelajaran yang mendalam.

Terakhir, berikut adalah repositori Github yang bagus yang menunjukkan peringkasan teks saat menggunakan TensorFlow.

Masyarakat Ilmuwan Data
sumber

16

Ini adalah area penelitian terbuka dan tentu saja tergantung pada cara Anda membingkai masalah. Jika Anda berbicara tentang peringkasan multi-dokumen maka masalahnya sedikit berbeda daripada jika Anda berbicara tentang peringkasan dokumen tunggal.

Sebaiknya meninjau literatur secara singkat.

Link yang diberikan oleh u / Masyarakat Data ilmuwan besar dan itu berguna untuk abstraktif summarization tugas di satu dokumen. Ada juga pekerjaan yang dilakukan pada ringkasan ekstraktif , yang mengidentifikasi kalimat penting untuk diekstrak.

Rush et. al memiliki makalah yang bagus tentang ringkasan yang abstrak dengan Attention , yang didasarkan pada pembelajaran yang mendalam.

Untuk peringkasan ekstraktif, Anda bisa menggunakan LSTM untuk membangun classifier Anda dan menggunakan pustaka TensorFlow / Torch standar tetapi sepertinya tidak ada publikasi saat ini dalam menggunakan pembelajaran mendalam untuk pendekatan ini.

Berikut adalah beberapa repo GitHub tambahan:

franciscojavierarceo
sumber

Terima kasih @franciscojavierarceo saya akan melihat ke makalah yang disebutkan di atas.

shanky_thebearer

4

Kedengarannya seperti ini adalah ringkasan yang lebih ekstraktif jika Anda mencari kata-kata kunci. Berikut adalah beberapa makalah yang mungkin memiliki implementasi:

Peringkasan Saraf dengan Mengekstrak Kalimat dan Kata-kata

Summarization Ekstraktif menggunakan Deep Learning

Jaringan Syaraf Konvolusional Semi-diawasi untuk Kategorisasi Teks melalui Daerah Embedding

Selain itu, SpaCy (tidak berafiliasi) memiliki blog yang bagus tentang arsitektur umum tugas ekstraksi teks.

Pavel Savine
sumber