Saya ingin menambahkan fitur rekomendasi ke sistem manajemen dokumen . Ini adalah server tempat sebagian besar dokumen perusahaan disimpan. Karyawan menelusuri antarmuka web dan klik untuk mengunduh (atau membaca online) dokumen yang mereka inginkan.
Setiap karyawan hanya memiliki akses ke subset dari semua dokumen:
Tujuan saya : Rekomendasikan kepada karyawan dokumen yang baru saja dibuka oleh rekan satu tim mereka, atau spreadsheet yang berfungsi sebagai lampiran pada dokumen yang baru saja mereka buka, atau apa pun yang mungkin ingin mereka baca.
Ada banyak mesin rekomendasi untuk data yang tersedia untuk umum (semua pengguna Netflix dapat melihat semua film), tetapi situasinya di sini istimewa: Setiap karyawan hanya memiliki izin untuk sebagian kecil dari semua dokumen, sedangkan di Netflix setiap pengguna memiliki akses ke semua film.
Contoh : Karyawan1 dapat membaca DocumentA tetapi bukan DocumentB. Employee2 dapat membaca keduanya dan Employee3 tidak dapat membaca apapun.
Tentu saja, saya tidak boleh merekomendasikan kepada karyawan dokumen yang dia tidak punya akses. Selanjutnya, saya kira saya harus mempertimbangkan popularitas dokumen hanya dalam konteks karyawan yang memiliki akses ke sana. Untuk membuat hal-hal menjadi lebih rumit, karyawan terkadang berpindah dari satu proyek ke proyek lain, yang berdampak pada dokumen yang mereka akses.
- Apakah ada nama untuk masalah seperti ini?
- Apakah bisa dikurangi tanpa kehilangan presisi / efisiensi karena masalah yang lebih umum?
- Jika tidak, pendekatan apa yang akan bekerja dengan baik untuk masalah seperti ini?
Catatan: Mesin rekomendasi seperti Netflix tidak cukup baik. Dokumen dengan 50 tampilan harus menonjol jika hanya 10 karyawan (termasuk saya) yang memiliki akses ke sana, tetapi tidak menonjol jika 100000 karyawan memiliki akses ke sana.
Jika diperlukan, berikut adalah beberapa data spesifik: Perusahaan rata-rata memiliki 1000 karyawan, sekitar 10.000 dokumen, seorang karyawan mengklik sekitar 5 dokumen per hari. Setiap proyek memiliki rata-rata 10 karyawan yang memiliki akses ke sana, dan memiliki sekitar 100 dokumen. Setiap karyawan bekerja pada rata-rata 5 proyek secara paralel.
sumber
Lihatlah Penambangan Kumpulan Data Masif hlm. 328 yang pada akhirnya akan membawa Anda ke SVD yang biasanya digunakan dalam sistem rekomendasi.
sumber