Mean Average Precision vs Mean Reciprocal Rank

12

Saya mencoba memahami kapan waktu yang tepat untuk menggunakan MAP dan kapan MRR harus digunakan. Saya menemukan presentasi ini yang menyatakan bahwa MRR paling baik digunakan ketika jumlah hasil yang relevan kurang dari 5 dan terbaik ketika itu 1. Dalam kasus lain MAP sesuai. Saya punya dua pertanyaan:

  • Saya tidak begitu mengerti mengapa demikian.
  • Saya tidak dapat menemukan referensi yang layak untuk klaim ini.

Harap dicatat bahwa saya tidak memiliki latar belakang statistik yang sangat kuat sehingga penjelasan orang awam akan banyak membantu. Terima kasih.

KG
sumber

Jawaban:

21

Bayangkan Anda memiliki semacam permintaan, dan sistem pencarian Anda telah mengembalikan daftar peringkat dari 20 item teratas yang menurutnya paling relevan dengan permintaan Anda. Sekarang juga bayangkan bahwa ada kebenaran dasar untuk ini, bahwa dalam kebenaran kita dapat mengatakan kepada masing-masing dari mereka bahwa "ya" itu adalah jawaban yang relevan atau "tidak" itu tidak.

Mean reciprocal rank (MRR) memberi Anda ukuran umum kualitas dalam situasi ini, tetapi MRR hanya peduli dengan item relevan dengan peringkat tertinggi . Jika sistem Anda mengembalikan item yang relevan di tempat tertinggi ketiga, itulah yang MRR pedulikan. Tidak masalah jika item relevan lainnya (dengan asumsi ada) peringkat nomor 4 atau nomor 20.

Oleh karena itu, MRR tepat untuk menilai sistem di mana (a) hanya ada satu hasil yang relevan, atau (b) dalam kasus penggunaan Anda, Anda hanya benar-benar peduli tentang yang berperingkat tertinggi. Ini mungkin benar dalam beberapa skenario pencarian web, misalnya, di mana pengguna hanya ingin menemukan satu hal untuk diklik, mereka tidak perlu lagi. (Padahal apakah itu biasanya benar, atau apakah Anda akan lebih senang dengan pencarian web yang menghasilkan sepuluh jawaban yang cukup bagus, dan Anda dapat membuat penilaian sendiri tentang yang mana yang akan diklik ...?)

Mean average average (MAP) mempertimbangkan apakah semua item yang relevan cenderung mendapatkan peringkat tinggi. Jadi, dalam contoh 20 teratas, tidak hanya peduli jika ada jawaban yang relevan di nomor 3, ia juga peduli apakah semua item "ya" dalam daftar itu dikelompokkan ke atas.

Ketika hanya ada satu jawaban yang relevan dalam dataset Anda, MRR dan MAP persis sama di bawah definisi standar MAP.

Untuk mengetahui alasannya, perhatikan contoh mainan berikut ini, yang terinspirasi oleh contoh-contoh di posting blog ini :

Contoh 1

Pertanyaan: "Ibukota California"

Peringkat hasil: "Portland", "Sacramento", "Los Angeles"

Peringkat hasil (relevansi biner): [0, 1, 0]

Jumlah jawaban yang benar mungkin: 1

Peringkat Timbal Balik:12

Presisi pada 1: 01

Presisi pada 2: 12

Presisi pada 3: 13

Presisi rata-rata = .1m12=1112=0.5

Seperti yang Anda lihat, presisi rata-rata untuk kueri dengan tepat satu jawaban yang benar sama dengan peringkat timbal balik dari hasil yang benar. Oleh karena itu MRR dari kumpulan pertanyaan seperti itu akan sama dengan MAP-nya. Namun, seperti yang diilustrasikan oleh contoh berikut, hal-hal berbeda jika ada lebih dari satu jawaban yang benar:

Contoh 2

Kueri: "Kota di California"

Peringkat hasil: "Portland", "Sacramento", "Los Angeles"

Peringkat hasil (relevansi biner): [0, 1, 1]

Jumlah jawaban yang benar mungkin: 2

Peringkat Timbal Balik:12

Presisi pada 1: 01

Presisi pada 2: 12

Presisi pada 3: 23

Presisi rata-rata = .1m[12+23]=12[12+23]=0.38

Dengan demikian, pilihan MRR vs MAP dalam kasus ini sepenuhnya tergantung pada apakah Anda ingin peringkat tersebut setelah hit pertama yang benar mempengaruhi.

Dan Stowell
sumber