Sangat umum di pemberi rekomendasi bahwa kami memiliki data produk pengguna yang memiliki label sebagai contoh "klik". Untuk mempelajari modelnya, saya perlu data klik dan tanpa klik.
Pendekatan sederhana untuk menghasilkan adalah mengambil pasangan produk-pengguna yang tidak ditemukan dalam data klik. Namun, itu mungkin menyesatkan. Contoh:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Saya dapat mengambil user1 dengan semua produk kecuali product1 dan memberi labelnya sebagai "no_click" dan seterusnya. Tetapi ini mungkin tidak benar. Mungkin user1 akan mengklik product2 jika ia ditampilkan product2. Tetapi hanya karena dia ditunjukkan set produk lain - dia tidak punya kesempatan untuk memutuskan untuk mengklik / tidak mengklik produk2.
Jadi bagaimana cara mengatasi masalah data unary?
sumber
Jawaban:
Jadi ada dua masalah.
Untuk (1) Anda harus merekam informasi ini. Jika saat ini tidak sedang direkam, Anda harus mulai merekam informasi ini. Mengingat Anda tidak memiliki informasi ini, Anda ingin memberikan rekomendasi. Untungnya, hanya dengan mengklik data Anda masih dapat membuat matriks utilitas, lihat 9.1.1.
http://i.stanford.edu/~ullman/mmds/ch9.pdf
Anda kemudian dapat menggunakan pemfilteran kolaboratif berbasis pengguna atau item seperti yang dijelaskan dalam makalah. Ini pada dasarnya adalah latihan dalam mengisi matriks utilitas dan mencoba menemukan "skor" untuk item yang tidak diklik. Rekomendasi Anda akan menjadi item yang tidak dipilih dengan skor tertinggi.
Untuk (2) Anda masih akan membuat rekomendasi untuk item yang tidak diklik. Jadi, itu saja bukan masalah. Anda akan ingin mengoptimalkan tayangan Anda. Anda juga tidak dapat memiliki pengetahuan penuh di mana pengguna dapat melihat semua opsi yang memungkinkan. Anda perlu merekam tayangan dan memahami sejumlah hal.
Ini adalah topik besar dan pada dasarnya ini adalah masalah domain periklanan online. Namun, mesin rekomendasi mencoba untuk menemukan item yang menarik di ekor panjang, yang sedikit berbeda dari optimasi iklan. Ini adalah umpan balik untuk mengevaluasi rekomendasi Anda. Tes A / B adalah umum. Anda akan ingin menguji tingkat klik dan kesalahan rekomendasi antara sistem Anda saat ini dan sistem baru.
Lihat juga di sini.
http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf
http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
sumber