Diberi kalimat seperti:
Complimentary gym access for two for the length of stay ($12 value per person per day)
Pendekatan umum apa yang dapat saya ambil untuk mengidentifikasi kata gym atau akses gym?
machine-learning
nlp
text-mining
data-cleaning
William Falcon
sumber
sumber
Jawaban:
Dangkal N atural L anguage P teknik rocessing dapat digunakan untuk mengekstrak konsep-konsep dari kalimat.
-------------------------------------------
Langkah-langkah teknik NLP dangkal:
1) Ubah kalimat menjadi huruf kecil
2) Hapus stopwords (ini adalah kata-kata umum yang ditemukan dalam bahasa. Kata-kata seperti untuk, very, dan, of, are, dll, adalah kata-kata stop yang umum)
3) Ekstrak n-gram yaitu, urutan yang berdekatan dari n item dari urutan teks yang diberikan (cukup meningkatkan n, model dapat digunakan untuk menyimpan lebih banyak konteks)
4) Tetapkan label sintaksis (kata benda, kata kerja, dll.)
5) Ekstraksi pengetahuan dari teks melalui pendekatan analisis semantik / sintaksis, yaitu mencoba mempertahankan kata-kata yang memiliki bobot lebih tinggi dalam kalimat seperti Noun / Verb
-------------------------------------------
Mari kita periksa hasil penerapan langkah-langkah di atas untuk kalimat yang Anda berikan
Complimentary gym access for two for the length of stay ($12 value per person per day)
.1-gram Hasil: gym, akses, panjang, masa inap, nilai, orang, hari
Mari kita tingkatkan n untuk menyimpan lebih banyak konteks dan menghapus stopwords.
2-gram Hasil: gym gratis, akses gym, lama menginap, nilai menginap
3-gram Hasil: akses gym gratis, nilai lama menginap, orang per hari
Hal-hal untuk diingat:
Alat:
Anda dapat mempertimbangkan menggunakan OpenNLP / StanfordNLP untuk penandaan Part of Speech. Sebagian besar bahasa pemrograman memiliki pustaka pendukung untuk OpenNLP / StanfordNLP. Anda dapat memilih bahasa berdasarkan kenyamanan Anda. Di bawah ini adalah contoh kode R yang saya gunakan untuk penandaan PoS.
Contoh kode R:
Bacaan tambahan tentang Dallow & Deep NLP:
Pemrosesan NLP Dangkal dan Dalam untuk pembelajaran ontologi: Tinjauan Cepat Klik Di Sini
Mengintegrasikan NLP Dangkal dan Dalam untuk Ekstraksi Informasi Klik Di Sini
sumber
Anda perlu menganalisis struktur kalimat dan mengekstrak kategori minat sintaksis yang sesuai (dalam hal ini, saya pikir itu akan menjadi frase kata benda , yang merupakan kategori frase ). Untuk detailnya, lihat artikel Wikipedia yang sesuai dan bab "Menganalisis Struktur Kalimat" dari buku NLTK.
Berkenaan dengan alat perangkat lunak yang tersedia untuk menerapkan pendekatan yang disebutkan di atas dan di luar, saya akan menyarankan untuk mempertimbangkan NLTK (jika Anda lebih suka Python), atau perangkat lunak StanfordNLP (jika Anda lebih suka Java). Untuk banyak kerangka kerja NLP lainnya, perpustakaan dan pemrograman berbagai bahasa mendukung, lihat bagian yang sesuai (NLP) dalam daftar kurasi yang sangat baik ini .
sumber
Jika Anda pengguna R, ada banyak informasi praktis yang bagus di http://www.rdatamining.com . Lihatlah contoh penggalian teks mereka.
Juga, lihat paket tm.
Ini juga merupakan situs agregasi yang bagus- http://www.tapor.ca/
sumber