Ekstrak bagian teks yang paling informatif dari dokumen

16

Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini.

Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin mengekstrak beberapa bagian itu dan menggunakannya sebagai ringkasan teks. Apakah ada dokumentasi yang berguna tentang cara mencapai sesuatu seperti ini.

Akan sangat membantu jika seseorang bisa mengarahkan saya ke arah yang benar apa yang harus saya cari atau baca untuk mendapatkan beberapa wawasan dalam pekerjaan yang mungkin telah dilakukan dalam bidang pemrosesan bahasa alami ini.

MaticDiba
sumber

Jawaban:

23

Apa yang Anda gambarkan sering dicapai dengan menggunakan kombinasi sederhana TF-IDF dan ringkasan ekstraktif .

Singkatnya, TF-IDF memberi tahu Anda pentingnya relatif setiap kata dalam setiap dokumen, dibandingkan dengan sisa dari korpus Anda. Pada titik ini, Anda memiliki skor untuk setiap kata di setiap dokumen yang mendekati "kepentingannya". Kemudian Anda dapat menggunakan skor kata individual ini untuk menghitung skor gabungan untuk setiap kalimat dengan menjumlahkan skor setiap kata dalam setiap kalimat. Akhirnya, cukup ambil kalimat penilaian top-N dari setiap dokumen sebagai ringkasannya.

Awal tahun ini, saya mengumpulkan Notebook iPython yang memuncak dengan implementasi ini di Python menggunakan NLTK dan Scikit-learn: A Smattering of NLP in Python .

Charlie Greenbacker
sumber
2
Ya, itu mungkin saja. Saya juga bisa menambahkan bobot tambahan untuk beberapa kata, yang sudah saya ketahui informatif. Terima kasih atas bantuan dan tautan bermanfaat Anda.
MaticDiba
Jadi bisakah saya menggunakan ini di pdf? :)
Adam
Ya, Anda dapat menggunakan ini pada teks dalam PDF, dengan asumsi Anda sudah mengekstraksi teks biasa dari PDF menggunakan sesuatu seperti pdftotext.
Charlie Greenbacker
1

Banyak teknik ekstraksi kata kunci di luar sana tergantung pada faktor-faktor seperti:

  1. Kualitas teks gramatikal
  2. Panjang teks
  3. Apakah Anda mencari kata kunci tunggal atau kata kunci phrasal dll.

Tetapi secara umum, jika Anda memiliki teks yang panjang dan Anda ingin mengekstrak kata kunci secara otomatis dari itu, saya akan merekomendasikan Anda untuk mengikuti artikel berikut:

  1. TextRank

  2. RAKE [Ekstraksi Kata Kunci Otomatis Cepat]

  3. Topica

Juga untuk mengekstrak kata kunci khusus (khusus) yang tidak datang melalui teknik di atas, lihat posting di bawah ini:

Ekstrak Kata Kunci Kustom menggunakan tagger NLTK POS dengan python

anindya
sumber