Saya tertarik melihat beberapa metrik yang berbeda untuk algoritme pemeringkatan - ada beberapa yang terdaftar di halaman wikipedia Learning to Rank, termasuk:
• Rata-rata presisi rata-rata (MAP);
• DCG dan NDCG;
• Precision @ n, NDCG @ n, di mana "@n" menunjukkan bahwa metrik dievaluasi hanya pada n dokumen teratas;
• Rata-rata peringkat timbal balik;
• Kendall's tau
• Spearman's Rho
• Tingkat timbal balik yang diharapkan
• Pendiri Yandex
tetapi tidak jelas bagi saya apa kelebihan / kekurangan masing-masing atau ketika Anda dapat memilih satu dari yang lain (atau apa artinya jika satu algoritma mengungguli yang lain pada NDGC tetapi lebih buruk ketika dievaluasi dengan MAP).
Apakah ada tempat saya bisa belajar lebih banyak tentang pertanyaan-pertanyaan ini?
sumber
Dalam banyak kasus di mana Anda menerapkan algoritma peringkat (mis. Pencarian Google, rekomendasi produk Amazon) Anda memiliki ratusan dan ribuan hasil. Pengguna hanya ingin menonton di bagian atas ~ 20 atau lebih. Jadi sisanya sama sekali tidak relevan.
Jika ini berlaku untuk aplikasi Anda, maka ini memiliki implikasi langsung pada metrik:
Akurasi klasifikasi top-k untuk peringkat
Untuk kebenaran dasar, mungkin sulit untuk menentukan urutan. Dan jika Anda hanya membedakan yang relevan / tidak relevan, maka Anda sebenarnya berada dalam kasus klasifikasi!
Akurasi top-n adalah metrik untuk klasifikasi. Lihat Apa definisi akurasi Top-n? .
Presisi @ k
Apa yang diceritakan:
Ingat @ k
Apa artinya:
sumber
Saya baru-baru ini harus memilih metrik untuk mengevaluasi algoritma peringkat multilabel dan sampai ke subjek ini, yang sangat membantu. Berikut adalah beberapa tambahan pada jawaban stpk, yang sangat membantu untuk membuat pilihan.
Detail
Mari kita fokus pada presisi rata-rata (AP) karena rata-rata presisi (MAP) hanyalah rata-rata AP pada beberapa pertanyaan. AP didefinisikan dengan benar pada data biner sebagai area di bawah kurva presisi-recall, yang dapat ditulis ulang sebagai rata-rata dari precision di setiap item positif. (lihat artikel wikipedia di MAP ) Suatu perkiraan yang mungkin adalah mendefinisikannya sebagai rata-rata dari precision di setiapbarang. Sayangnya, kami kehilangan properti bagus yang diberi peringkat contoh negatif di akhir daftar tidak berdampak pada nilai AP. (Ini sangat menyedihkan ketika datang untuk mengevaluasi mesin pencari, dengan contoh-contoh yang jauh lebih negatif daripada contoh-contoh positif. Solusi yang mungkin adalah dengan mencontoh contoh-contoh negatif, dengan biaya kerugian lainnya, misalnya pertanyaan dengan item yang lebih positif akan menjadi sama rata sulit untuk pertanyaan dengan beberapa contoh positif.)
Di sisi lain, pendekatan ini memiliki properti bagus yang digeneralisasikan dengan baik ke kasus multilabel. Memang, dalam kasus biner, ketepatan pada posisi k dapat juga diartikan sebagai relevansi rata-rata sebelum posisi k, di mana relevansi contoh positif adalah 1, dan relevansi contoh negatif adalah 0. Definisi ini meluas secara alami ke kasus di mana ada lebih dari dua tingkat relevansi yang berbeda. Dalam hal ini, AP juga dapat didefinisikan sebagai rata-rata dari relevansi di setiap posisi.
Dari dua ungkapan ini, kita dapat menyimpulkan bahwa - AP menimbang dokumen dari 1 hingga 0. - DCG menimbang dokumen secara independen dari jumlah total dokumen.
Dalam kedua kasus, jika ada contoh yang lebih tidak relevan daripada contoh yang relevan, berat total positif dapat diabaikan. Untuk AP, solusinya adalah dengan subsampel sampel negatif, tapi saya tidak yakin bagaimana memilih proporsi subsampling, serta apakah akan membuatnya bergantung pada permintaan atau pada jumlah dokumen positif. Untuk DCG, kita bisa memotongnya di k, tetapi pertanyaan yang sama muncul.
Saya akan senang mendengar lebih banyak tentang ini, jika ada orang di sini yang menangani masalah ini.
sumber