Pada dasarnya, ada dua cara umum untuk belajar melawan kumpulan data besar (ketika Anda dihadapkan pada batasan waktu / ruang):
- Kecurangan :) - gunakan hanya subset "dikelola" untuk pelatihan. Hilangnya keakuratan dapat diabaikan karena hukum pengembalian yang semakin menurun - kinerja prediktif dari model tersebut seringkali mendatar jauh sebelum semua data pelatihan dimasukkan ke dalamnya.
- Komputasi paralel - memecah masalah menjadi bagian-bagian yang lebih kecil dan menyelesaikan masing-masing pada mesin / prosesor yang terpisah. Anda memerlukan versi paralel dari algoritme, tetapi kabar baiknya adalah banyak algoritma umum yang paralel secara alami: tetangga terdekat, pohon keputusan, dll.
Apakah ada metode lain? Apakah ada aturan praktis kapan harus menggunakan masing-masing? Apa kelemahan dari setiap pendekatan?
sumber
Alih-alih menggunakan hanya satu himpunan bagian, Anda bisa menggunakan beberapa himpunan bagian seperti dalam pembelajaran mini-batch (mis. Penurunan gradien stokastik). Dengan cara ini Anda masih akan menggunakan semua data Anda.
sumber
Ensemble seperti mengantongi atau memadukan - tidak ada data yang terbuang, masalah secara otomatis menjadi paralel paralel dan mungkin ada keakuratan / penguatan yang signifikan.
sumber