Kumpulan data patokan untuk pemfilteran kolaboratif

9

Saya ingin menguji algoritma baru untuk pemfilteran kolaboratif . Kasus penggunaan yang umum adalah merekomendasikan film berdasarkan preferensi pengguna yang mirip dengan pengguna tertentu.

Apa beberapa dataset patokan umum yang sering digunakan peneliti untuk menguji algoritme mereka? Saya tahu bahwa di dalam Computer Vision orang sering menggunakan MNIST atau CIFAR, tetapi saya belum menemukan dataset serupa untuk penyaringan kolaboratif.

pir
sumber
1
Apakah Anda melihat dataset hadiah Netflix? Ya, kompetisi telah lama berakhir dan telah ditarik dari situs web resmi karena beberapa alasan privasi. Anda masih dapat mencoba menemukannya di lokasi lain.
Vladislavs Dovgalecs
Kaggle.com memiliki banyak. Cukup cari 'rekomendasi dalam: dataset' atau 'rekomendasi dalam: kompetisi'.
ran8

Jawaban:

8

Jawaban yang jelas adalah dataset hadiah Netflix, ada banyak penelitian ke dalamnya dan sebagian besar algoritma CF telah mengetahui skor di dalamnya.

Ada set data lain yang tersedia yang biasanya digunakan sebagai tolok ukur:

  • Movie lens Dataset : dataset 20 juta peringkat yang digunakan untuk pembandingan algoritma CF;

  • Jester Dataset : dataset rekomendasi lelucon dengan lebih dari 6 juta peringkat;

  • Anda dapat menemukan lebih banyak kumpulan data di tautan ini

João Almeida
sumber
1

Saya memiliki repositori yang dapat membantu Anda.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

Arthur Fortes
sumber
3
Tolong jangan posting jawaban hanya tautan, jawaban harus lengkap. Saya sarankan untuk mengedit jawaban Anda untuk menambahkan setidaknya beberapa informasi yang disediakan tautan, dan kemudian memberikan tautan untuk eksplorasi lebih lanjut.
Mephy