Katakanlah Model dilatih pada tanggal menggunakan data berlabel yang tersedia, dibagi menjadi pelatihan dan uji yaitu , . Model ini kemudian digunakan dalam produksi dan membuat prediksi pada data baru yang masuk. Beberapa hari berlalu, dan ada banyak data berlabel yang dikumpulkan di antaranya dan hari, sebut saja . Dalam pendekatan saya saat ini, saya mengambil sampel acak dari (ambil mis. split 80/20),
Begitu, dari = (data baru digunakan untuk menyempurnakan model yang ada saat ini ) dari = (data baru ditambahkan ke )
Proses fine-tuning ini diulang seiring berjalannya waktu.
Dengan melakukan ini saya mendapatkan set tes yang terus berkembang, serta saya mencegah pelatihan ulang seluruh model (pada dasarnya saya dapat membuang data lama seperti model telah belajar dari itu). Model baru yang dihasilkan hanyalah versi lama dari model lama.
Saya punya beberapa pertanyaan, mengenai pendekatan ini:
- Apakah ada kelemahan yang jelas dalam melakukan ini?
- Apakah model tersebut perlu dilatih ulang sepenuhnya (melupakan semua yang telah dipelajari sebelumnya, dan melatih model dengan kereta baru / split tes) setelah beberapa waktu atau dapatkah pendekatan yang saya jelaskan di atas berlanjut tanpa batas waktu?
- Apa yang harus menjadi kondisi untuk menukar model yang digunakan sekarang dengan model yang baru disesuaikan?
Jawaban:
Saya pikir ini adalah pendekatan yang baik secara umum. Namun:
Menyesuaikan model Anda (pembelajaran online) sangat tergantung pada algoritma dan model seberapa baik ini bekerja. Tergantung pada algoritma Anda, mungkin bijaksana untuk melatih semuanya
Ruang sampel Anda dapat berubah dari waktu ke waktu. Jika Anda memiliki cukup data, mungkin perlu pelatihan ulang setiap beberapa hari / minggu / bulan hanya dengan data tahun lalu yang mungkin lebih baik. Jika sampel lama Anda tidak mewakili situasi saat ini juga termasuk mereka mungkin akan merusak kinerja Anda lebih dari bantuan sampel tambahan
Kondisi terbesar adalah jika diuji dan berapa banyak downtime yang terlibat, tetapi secara umum bertukar kali lebih baik, dan ini bisa otomatis
sumber
Ini terutama tergantung pada jenis pembelajaran yang dilakukan algoritma ml Anda. Untuk pembelajaran Offline: melatih semuanya adalah bijaksana karena beberapa algoritma memerlukan data lengkap Anda untuk menghasilkan asumsi yang lebih baik. Pembelajaran online: Model Anda dapat disesuaikan dengan data terbaru atau terbaru dengan pembaruan dalam model saat data tiba.
sumber