Pertimbangkan masalah pemfilteran kolaboratif. Kami memiliki matriks ukuran #user * # item. jika pengguna saya suka barang j, jika pengguna saya tidak suka barang j danjika tidak ada data tentang pasangan (i, j). Kami ingin memprediksi untuk pengguna mendatang, pasangan barang.
Pendekatan penyaringan kolaboratif standar adalah untuk merepresentasikan M sebagai produk dari 2 matriks sedemikian sehingga minimal (mis. Meminimalkan galat kuadrat rata-rata untuk elemen diketahui ).
Bagi saya fungsi kehilangan logistik sepertinya lebih cocok, mengapa semua algoritma menggunakan MSE?
Jawaban:
Kami menggunakan kehilangan logistik untuk faktorisasi matriks implisit di Spotify dalam konteks rekomendasi musik (menggunakan hitungan bermain). Kami baru saja menerbitkan makalah tentang metode kami dalam lokakarya NIPS 2014 mendatang. Makalah ini berjudul Factorisasi Matriks Logistik untuk Data Umpan Balik Implisit dan dapat ditemukan di sini http://stanford.edu/~rezab/nips2014workshop/submits/logmat.pdf
Kode untuk makalah ini dapat ditemukan di Github saya https://github.com/MrChrisJohnson/logistic-mf
sumber
Sebagian besar makalah yang akan Anda temukan pada subjek akan berurusan dengan matriks di mana peringkat berada pada skala [0,5]. Dalam konteks Hadiah Netflix misalnya, matriks memiliki peringkat diskrit dari 1 hingga 5 (+ nilai yang hilang). Itu sebabnya kesalahan kuadrat adalah fungsi biaya yang paling menyebar. Beberapa ukuran kesalahan lain seperti perbedaan Kullback-Leibler dapat dilihat.
Masalah lain yang dapat terjadi dengan faktorisasi matriks standar adalah bahwa beberapa elemen matriks U dan V mungkin negatif (terutama selama langkah pertama). Itulah alasan mengapa Anda tidak akan menggunakan log-loss di sini sebagai fungsi biaya Anda.
Namun, jika Anda berbicara tentang Faktorisasi Matriks Non-negatif, Anda harus dapat menggunakan log-loss sebagai fungsi biaya Anda. Anda berada dalam kasus yang sama dari Regresi Logistik di mana log-loss digunakan sebagai fungsi biaya: nilai yang Anda amati adalah 0's dan 1's dan Anda memprediksi angka (probabilitas) antara 0 dan 1.
sumber