Saya ingin menguji algoritma baru untuk pemfilteran kolaboratif . Kasus penggunaan yang umum adalah merekomendasikan film berdasarkan preferensi pengguna yang mirip dengan pengguna tertentu.
Apa beberapa dataset patokan umum yang sering digunakan peneliti untuk menguji algoritme mereka? Saya tahu bahwa di dalam Computer Vision orang sering menggunakan MNIST atau CIFAR, tetapi saya belum menemukan dataset serupa untuk penyaringan kolaboratif.
Jawaban:
Jawaban yang jelas adalah dataset hadiah Netflix, ada banyak penelitian ke dalamnya dan sebagian besar algoritma CF telah mengetahui skor di dalamnya.
Ada set data lain yang tersedia yang biasanya digunakan sebagai tolok ukur:
Movie lens Dataset : dataset 20 juta peringkat yang digunakan untuk pembandingan algoritma CF;
Jester Dataset : dataset rekomendasi lelucon dengan lebih dari 6 juta peringkat;
Anda dapat menemukan lebih banyak kumpulan data di tautan ini
sumber
Saya memiliki repositori yang dapat membantu Anda.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
sumber