Ibu saya mengambil kursus online untuk menjadi semacam pustakawan, dalam kursus ini mereka mencakup pencarian boolean, sehingga mereka dapat mencari database secara efisien, namun, dia mendapat pertanyaan yang terdengar seperti ini:
Pencarian "x ATAU" akan menghasilkan 105.000 klik, sedangkan pencarian hanya x akan menghasilkan 80.000 klik, dan pencarian hanya y akan mendapatkan 35.000 klik. Mengapa pencarian "x ATAU" memberikan 105.000 klik, ketika pencarian individu gabungan memberikan 115.000 klik?
Bagi saya ini terdengar aneh, jadi saya mengujinya sendiri, menggunakan kata bacon dan sandwich .
- Hanya bacon yang menghasilkan 179.000 hasil
- Hanya sandwich yang menghasilkan 312.000 hasil
- bacon OR sandwich memberi 491.000 hasil
Tetapi bagi saya itu menambahkan: 179 000 000 (bacon) + 312 000 000 (sandwich) = 491 000 000 (bacon ATAU sandwich)
Mengapa kueri ATAU dapat menghasilkan lebih sedikit klik daripada gabungan kueri individual?
Jawaban:
Petunjuk: Pencarian x DAN y akan menghasilkan 10.000 klik.
sumber
Prinsip penghitungan yang berlaku di sini adalah inklusi-pengecualian .
Untuk membuat angka-angka bekerja, harus 10.000.| X∩ Y|
Diagram Venn mungkin lebih meyakinkan bagi seseorang yang mungkin terintimidasi oleh notasi.
sumber
Dokumen 1: Kucing ada di meja
Dokumen 2: Kucing saya hitam
Dokumen 3: Anjing ada di bawah meja
Dokumen 4: Apa nama kucing Anda?
Dokumen 5: Ini adalah foto hitam putih
Mencari kucing : dokumen yang dikembalikan adalah 1,2,4 (3 dokumen yang dikembalikan)
Mencari hitam : dokumen yang dikembalikan adalah ...
Mencari kucing ATAU hitam : dokumen yang dikembalikan adalah ...
:-DD
sumber
Dengan kata sederhana:
Pencarian untuk X memberi Anda n jawaban.
Mencari Y memberi Anda jawaban.
Mencari X AND Y memberi Anda jawaban p.
Dalam mencari X OR Y, pencarian terputus begitu menemukan X atau Y. Jadi, jika ada X sebelum Y, maka Y tidak akan dihitung dalam mencari X OR Y. Oleh karena itu pencarian Anda untuk X OR Y akan memberi Anda n + m - p jawaban.
Penting untuk dicatat bahwa hasilnya akan sama, apakah Anda melakukan 2 pencarian, atau hanya satu. Hanya saja dalam menjumlahkan dua pencarian, beberapa dokumen dihitung dua kali.
sumber
Bayangkan Anda hanya memiliki satu dokumen. Ini adalah Dokumen # 1 dengan ini:
Sekarang bayangkan Anda memiliki fungsi pencarian yang dapat memberi Anda semua dokumen berdasarkan satu kata kunci:
Perhatikan bahwa jumlah dokumen dalam kedua kasus adalah 1. Sekarang jika Anda memiliki fungsi pencarian yang memberi Anda jumlah dokumen yang cocok dengan satu atau lebih kata kunci yang disediakan:
Ketika Anda menambahkan jumlah dokumen yang mengandung
X
jumlah dokumen yang mengandungY
, ini menyebabkan Anda menghitung dokumen yang sama dua kali. Dalam kasus Anda, ini terjadi10000
kali seperti yang ditunjukkan di atas :)sumber