Apakah ada cara untuk mendeteksi bias mesin pencari?

9

Mesin pencari semakin diandalkan sebagai penjaga gerbang informasi, namun kriteria yang digunakan oleh mesin pencari untuk memberi peringkat hasil tidak jelas bagi pengguna. Bagaimana pengguna dapat yakin bahwa hasil mereka tidak bias atau dirusak dengan cara tertentu untuk mendapatkan keuntungan dari minat dengan mengorbankan kualitas hasil pencarian?

Pemerintah secara rutin menuntut agar penyedia pencarian menghapus atau menurunkan peringkat situs web yang dianggap tidak diinginkan secara politis. Bisnis dapat membayar penyedia untuk meningkatkan hasil tertentu daripada yang lain untuk meningkatkan pendapatan mereka. Firewall dapat mencampuri hasil sebelum dikirim kembali ke pengguna.

Bahkan perubahan yang tampaknya tidak berbahaya pada algoritma peringkat yang mungkin tidak terlihat bias, sebenarnya dapat dirancang untuk merusak situs web yang memiliki beberapa atribut umum (tidak terkait dengan kualitas aktual).

Apakah mungkin untuk mendeteksi bias mesin pencari, dengan mengatakan hasil pemantauan selama periode waktu tertentu dan mengevaluasi apakah beberapa "variabel tersembunyi" (mungkin afiliasi politik) merupakan faktor pendorong dalam perubahan peringkat situs web?

Penyedia licik secara bertahap dari waktu ke waktu menurunkan peringkat situs web yang ditargetkan (dan mungkin situs web acak juga untuk mengalihkan perhatian pengguna). Berapa batasan pada seberapa banyak bias yang bisa diberikan penyedia tanpa deteksi? Atau mungkinkah untuk selalu menyembunyikan gangguan seperti itu dengan memilih kriteria peringkat tertimbang yang secara tidak sengaja menghasilkan hasil yang diinginkan (dengan cara "mengintai data").

Apakah ada yang berubah jika kriteria peringkat diumumkan kepada publik? Apakah kita perlu membuka sumber kriteria yang digunakan oleh mesin pencari?

Ini mengingatkan saya pada hasil bahwa mendeteksi apakah instrumen keuangan yang kompleks seperti CDO telah dirusak oleh penjual sama dengan memecahkan masalah subgraph terpadat:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Terima kasih!

han d.
sumber
4
ini adalah pertanyaan yang keren, tetapi saya akan merevisinya dengan memastikan hanya menanyakan satu pertanyaan terkait. Yang paling jelas adalah menjadikan ini permintaan referensi dan bertanya "adakah yang sudah melihat ini?". Jika Anda yakin tidak ada yang memilikinya, maka sesuatu seperti "bagaimana ini bisa dimodelkan secara formal?" mungkin pertanyaan yang bagus. Jika Anda menyimpan terlalu banyak pertanyaan, dan beberapa di antaranya berpotensi tidak terkait dengan masalah, maka mungkin ditutup sebagai "bukan pertanyaan nyata".
Artem Kaznatcheev
Perhatikan bahwa membuat skema peringkat publik membukanya untuk menyerang oleh spammer. Varian yang menarik adalah: "adakah yang setara dengan 'kunci publik' untuk peringkat"
Suresh Venkat
@SureshVenkat "membuat skema peringkat terbuka untuk menyerang" terdengar seperti Anda menyarankan <s> keamanan </s> tidak memihak melalui ketidakjelasan;).
Artem Kaznatcheev
tidak, tapi itu sebabnya saya bertanya tentang versi umum dari skema peringkat.
Suresh Venkat
Karena bukan semua pihak yang berpartisipasi dalam proses pencarian dianggap pengguna jahat, solusi normal adalah memodelkan proses tersebut sebagai permainan dengan pengguna yang egois. Jika dimodelkan dengan benar, kita dapat mengetahui apakah bermanfaat bagi mesin pencari untuk melakukan hal seperti itu atau tidak. Kemudian kita dapat merancang mekanisme untuk mencegah gangguan seperti itu.
Helium

Jawaban:

3

Ini jelas merupakan pertanyaan yang berakhir sangat terbuka, tetapi untuk tetap pada topik, berikut adalah satu pendekatan teori CS untuk gagasan "keadilan" dan bagaimana menegakkannya.

"Keadilan Melalui Kesadaran" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

Aaron Roth
sumber