Saya telah bekerja dengan kumpulan data besar belakangan ini dan menemukan banyak makalah metode streaming. Untuk beberapa nama:
- Ikuti-the-Regularized-Leader dan Mirror Descent: Teorema Kesetaraan dan Regularisasi L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Streamed Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimasi sub-GrAdient SOlver untuk SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- atau di sini: Dapatkah SVM melakukan stream belajar satu contoh pada suatu waktu?
- Streaming Hutan Acak ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Namun, saya tidak dapat menemukan dokumentasi tentang bagaimana mereka membandingkan satu sama lain. Setiap artikel yang saya baca tampaknya menjalankan percobaan pada kumpulan data yang berbeda.
Saya tahu tentang sofia-ml, vowpal wabbit, tetapi mereka tampaknya menerapkan metode yang sangat sedikit, dibandingkan dengan sejumlah besar metode yang ada!
Apakah algoritma yang kurang umum tidak cukup performan? Apakah ada makalah yang mencoba meninjau metode sebanyak mungkin?
machine-learning
references
large-data
online
RUser4512
sumber
sumber
Jawaban:
Sejauh ini yang saya ketahui, survei ketat terhadap beberapa algoritma yang mirip dengan kertas Delgado yang Anda tautkan, tetapi ada upaya untuk mengumpulkan hasil untuk keluarga algoritma.
Berikut adalah beberapa sumber yang saya temukan berguna (penafian: Saya menerbitkan di daerah, sehingga kemungkinan saya bias dalam pilihan saya):
Beberapa paket perangkat lunak:
Saya dapat menambahkan lebih banyak info dan sumber jika diperlukan. Seperti yang dikatakan orang lain, lapangan dapat menggunakan survei yang komprehensif.
sumber