Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini.
Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin mengekstrak beberapa bagian itu dan menggunakannya sebagai ringkasan teks. Apakah ada dokumentasi yang berguna tentang cara mencapai sesuatu seperti ini.
Akan sangat membantu jika seseorang bisa mengarahkan saya ke arah yang benar apa yang harus saya cari atau baca untuk mendapatkan beberapa wawasan dalam pekerjaan yang mungkin telah dilakukan dalam bidang pemrosesan bahasa alami ini.
sumber
Banyak teknik ekstraksi kata kunci di luar sana tergantung pada faktor-faktor seperti:
Tetapi secara umum, jika Anda memiliki teks yang panjang dan Anda ingin mengekstrak kata kunci secara otomatis dari itu, saya akan merekomendasikan Anda untuk mengikuti artikel berikut:
TextRank
RAKE [Ekstraksi Kata Kunci Otomatis Cepat]
Topica
Juga untuk mengekstrak kata kunci khusus (khusus) yang tidak datang melalui teknik di atas, lihat posting di bawah ini:
Ekstrak Kata Kunci Kustom menggunakan tagger NLTK POS dengan python
sumber