Pembelajaran streaming yang canggih

25

Saya telah bekerja dengan kumpulan data besar belakangan ini dan menemukan banyak makalah metode streaming. Untuk beberapa nama:

Namun, saya tidak dapat menemukan dokumentasi tentang bagaimana mereka membandingkan satu sama lain. Setiap artikel yang saya baca tampaknya menjalankan percobaan pada kumpulan data yang berbeda.

Saya tahu tentang sofia-ml, vowpal wabbit, tetapi mereka tampaknya menerapkan metode yang sangat sedikit, dibandingkan dengan sejumlah besar metode yang ada!

Apakah algoritma yang kurang umum tidak cukup performan? Apakah ada makalah yang mencoba meninjau metode sebanyak mungkin?

RUser4512
sumber
7
Jika tidak ada, Anda harus menulisnya sendiri :)
Chris C
1
Anda mengerti bahwa orang-orang di dunia akademis harus menulis makalah / membuat algoritma baru, dan mereka akan mencari set data yang paling baik digunakan untuk algoritme mereka. Saya akan merekomendasikan Anda hanya memastikan Anda memahami bagaimana satu perpustakaan seperti vowpal-wabbit berjalan (yaitu semua parameter dll).
seanv507
1
Itu justru sebaliknya! Saya mengerti bahwa orang memilih set data terbaik dan umumnya relatif diam tentang bagaimana mereka memvalidasi silang algoritma (baik metode mereka dan metode yang bersaing). Saya lebih suka mencari versi streaming dari jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512
1
Sangat suka kertas JMLR yang Anda tautkan. Saya sendiri jadi tidak tahu perbandingan yang serupa untuk algoritma streaming. Mungkin karena streaming lebih bersifat niche dan juga karena sementara itu sudah sulit untuk membandingkan pengklasifikasi untuk dataset statis, bahkan lebih rumit untuk membuat perbandingan yang adil untuk streaming data.
stats0007
1
Meskipun ini tidak secara khusus menjawab pertanyaan Anda, dua sumber daya terkait adalah: Mengevaluasi Algoritma yang Belajar dari Aliran Data oleh Gama et al., Yang membahas teknik evaluasi, dan MOA (Massive Online Analysis) , kerangka kerja sumber terbuka untuk penambangan aliran data yang menggabungkan kemampuan untuk mengevaluasi kinerja.
user77876

Jawaban:

1

Sejauh ini yang saya ketahui, survei ketat terhadap beberapa algoritma yang mirip dengan kertas Delgado yang Anda tautkan, tetapi ada upaya untuk mengumpulkan hasil untuk keluarga algoritma.

Berikut adalah beberapa sumber yang saya temukan berguna (penafian: Saya menerbitkan di daerah, sehingga kemungkinan saya bias dalam pilihan saya):

Beberapa paket perangkat lunak:

Saya dapat menambahkan lebih banyak info dan sumber jika diperlukan. Seperti yang dikatakan orang lain, lapangan dapat menggunakan survei yang komprehensif.

Bar
sumber