Apa sajakah cara standar menghitung jarak antara permintaan pencarian individual?

8

Saya mengajukan pertanyaan serupa tentang jarak antara "dokumen" (artikel Wikipedia, berita, dll.). Saya membuat pertanyaan ini terpisah karena permintaan pencarian jauh lebih kecil dari dokumen dan jauh lebih ribut. Karenanya saya tidak tahu (dan ragu) apakah metrik jarak yang sama akan digunakan di sini.

Metrik jarak vanila leksikal atau metrik jarak semantik canggih lebih disukai, dengan preferensi yang lebih kuat untuk yang terakhir.

Mat
sumber
2
Kueri penelusuran tidak ribut (hanya ada sedikit kata dalam kueri yang sebenarnya tidak terkait dengan penelusuran), tetapi mungkin berisi kesalahan ejaan, ambiguitas, gaul, dan hal-hal lain yang harus Anda tangani secara terpisah. Di luar masalah ini, pertanyaan dan dokumen dapat diproses dengan cara yang hampir sama.
berteman
mungkin Anda dapat mengekstrak vektor kata kunci dari kueri, dan kemudian menghitung jarak antara vektor-vektor itu, dan bagaimana kesamaannya didefinisikan, saya pikir ini masih merupakan pertanyaan terbuka :)
crazyminer
1
Kedua pertanyaan Anda luas, subyektif dan akan membutuhkan pemeliharaan yang signifikan untuk menghindari usang. Karena masyarakat menghargai pertanyaan semacam itu, menjaga salah satu dari mereka mungkin masuk akal - tetapi tentu saja tidak keduanya, ketika diskusi ini adalah bagian yang tepat dari yang lain. Tinjau jenis pertanyaan apa yang harus saya hindari?
Air
Terima kasih, AirThomas! posting ffriend tentu menunjukkan bahwa ini jelas duplikat. Saya akan melihat apa yang bisa saya lakukan tentang ini.
Matt

Jawaban:

4

Dari pengalaman saya, hanya beberapa kelas pertanyaan yang dapat diklasifikasi berdasarkan fitur leksikal (karena ambiguitas bahasa alami). Sebagai gantinya, Anda dapat mencoba menggunakan hasil pencarian boolean (situs atau segmen situs, bukan dokumen, tanpa peringkat) sebagai fitur untuk klasifikasi (alih-alih pada kata-kata). Pendekatan ini bekerja dengan baik di kelas-kelas di mana ada ambiguitas leksikal yang besar dalam sebuah kueri tetapi ada banyak situs bagus yang relevan dengan kueri (misalnya film, musik, kueri komersial, dan sebagainya).

Juga, untuk klasifikasi offline Anda dapat melakukan LSI pada matriks situs permintaan. Lihat buku "Pengantar Pengambilan Informasi" untuk detailnya.

Alx49
sumber
Pada catatan terkait, saya menemukan makalah yang relevan ini .
Mat
4

Metrik kemiripan kosinus melakukan pekerjaan yang baik (jika tidak sempurna) mengendalikan panjang dokumen, jadi membandingkan kemiripan 2 dokumen atau 2 kueri menggunakan metrik kosinus dan bobot bobot untuk kata-kata harus bekerja dengan baik dalam kedua kasus. Saya juga akan merekomendasikan melakukan LSA pertama pada bobot idf, dan kemudian menghitung persamaan cosinus distance \.

Jika Anda mencoba untuk membangun mesin pencari, saya akan merekomendasikan menggunakan mesin pencari open source gratis seperti solr atau pencarian elastis, atau hanya perpustakaan lucene mentah, karena mereka melakukan sebagian besar pekerjaan untuk Anda, dan memiliki metode built in yang bagus untuk menangani permintaan untuk mendokumentasikan masalah kesamaan.

Simon
sumber