Saya memiliki string HTML dan ingin mencari tahu apakah kata yang saya berikan relevan dengan string itu.
Relevansi dapat diukur berdasarkan frekuensi dalam teks.
Contoh untuk menggambarkan masalah saya:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
Sekarang saya ingin menguji beberapa kata lain:
bike repairs
dog poo
bike repairs
harus ditandai sebagai relevan sedangkan dog poo
seharusnya tidak ditandai sebagai relevan.
Pertanyaan:
- Bagaimana ini bisa dilakukan?
- Bagaimana cara saya memfilter kata-kata yang ambigu seperti
in
atauor
Terima kasih atas ide Anda!
Saya kira itu adalah sesuatu yang Google lakukan untuk mencari tahu kata kunci apa yang relevan dengan situs web. Saya pada dasarnya mencoba mereproduksi peringkat di halaman mereka.
machine-learning
data-mining
Hendrik
sumber
sumber
Jawaban:
Itulah garis besar dari proses Pengambilan Informasi
Pengantar Pengambilan Informasi oleh Christopher D. Manning, Prabhakar Raghavan dan Hinrich Schütze adalah buku yang sangat bagus untuk memulai di IR.
Atau cukup gunakan Apache Solr untuk mendapatkan semua yang Anda butuhkan di luar kotak (atau Apache Lucene , yang digunakan oleh Solr, untuk membangun aplikasi Anda sendiri)
sumber
Saya ingat dulu bermain dengan Elastic Search (situs web sekarang sangat berbeda dari yang saya ingat). Ada beberapa hal tentang berurusan dengan bahasa manusia di sini: http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/languages.html
Berhati-hatilah bahwa pencarian elastis seperti bazoka besar untuk masalah Anda. Jika masalah Anda sangat sederhana, mungkin Anda ingin pergi dari awal. Ada beberapa dokumen di web tentang itu.
sumber