Model Pembelajaran Mesin di lingkungan produksi

8

Katakanlah Model dilatih pada tanggal dt1 menggunakan data berlabel yang tersedia, dibagi menjadi pelatihan dan uji yaitu trSebuahsayandt1, testdt1. Model ini kemudian digunakan dalam produksi dan membuat prediksi pada data baru yang masuk. BeberapaX hari berlalu, dan ada banyak data berlabel yang dikumpulkan di antaranya dt1 dan dt1+X hari, sebut saja DSebuahtSebuahx. Dalam pendekatan saya saat ini, saya mengambil sampel acak dari DSEBUAHTSEBUAHx (ambil mis. split 80/20),

Begitu, 80% dari DSEBUAHTSEBUAHx = trSebuahsayanx (data baru digunakan untuk menyempurnakan model yang ada saat ini dt1) 20% dari DSEBUAHTSEBUAHx = testx (data baru ditambahkan ke testdt1)

Proses fine-tuning ini diulang seiring berjalannya waktu.

Dengan melakukan ini saya mendapatkan set tes yang terus berkembang, serta saya mencegah pelatihan ulang seluruh model (pada dasarnya saya dapat membuang data lama seperti model telah belajar dari itu). Model baru yang dihasilkan hanyalah versi lama dari model lama.

Saya punya beberapa pertanyaan, mengenai pendekatan ini:

  1. Apakah ada kelemahan yang jelas dalam melakukan ini?
  2. Apakah model tersebut perlu dilatih ulang sepenuhnya (melupakan semua yang telah dipelajari sebelumnya, dan melatih model dengan kereta baru / split tes) setelah beberapa waktu atau dapatkah pendekatan yang saya jelaskan di atas berlanjut tanpa batas waktu?
  3. Apa yang harus menjadi kondisi untuk menukar model yang digunakan sekarang dengan model yang baru disesuaikan?
perintis
sumber
Maaf, orang baru. Anda harus memiliki dataset yang sangat istimewa agar berlabel, ya? Pelabelan yang diawasi pada dasarnya mahal dan lambat.
xtian
@xtian Biaya pelabelan yang diawasi dan waktu yang diperlukan sangat tergantung pada masalah. Katakanlah Anda memiliki model ML yang diprediksi ketika seseorang berjalan di dealer akankah ia membeli mobil atau tidak (atribut orang tertentu)? Pengumpulan data berlabel Anda relatif cepat dalam hal ini. Dalam sehari, Anda mungkin mendapatkan 100+ sampel berlabel.
trailblazer

Jawaban:

5

Saya pikir ini adalah pendekatan yang baik secara umum. Namun:

  • Menyesuaikan model Anda (pembelajaran online) sangat tergantung pada algoritma dan model seberapa baik ini bekerja. Tergantung pada algoritma Anda, mungkin bijaksana untuk melatih semuanya

  • Ruang sampel Anda dapat berubah dari waktu ke waktu. Jika Anda memiliki cukup data, mungkin perlu pelatihan ulang setiap beberapa hari / minggu / bulan hanya dengan data tahun lalu yang mungkin lebih baik. Jika sampel lama Anda tidak mewakili situasi saat ini juga termasuk mereka mungkin akan merusak kinerja Anda lebih dari bantuan sampel tambahan

  • Kondisi terbesar adalah jika diuji dan berapa banyak downtime yang terlibat, tetapi secara umum bertukar kali lebih baik, dan ini bisa otomatis

Jan van der Vegt
sumber
Terima kasih balasannya ! Saat ini saya menggunakan metode ensemble seperti Random Forest, dan Gradient Boosted Trees. Alasan saya tidak menyebutkan mereka, karena saya ingin tahu seberapa bagus pendekatan ini agnostik dengan jenis algoritma.
trailblazer
Tentang ruang sampel, bukankah Anda pikir itu bisa ditangani dengan memberi bobot pada pengamatan? membangun semacam gagasan waktu.
trailblazer
@trailblazer menambahkan pohon ke hutan Anda adalah pendekatan yang layak, saya pikir, tidak pernah mencobanya tetapi harus ada literatur tentang itu. Cari pembelajaran online. Algoritma agnostik tidak akan mungkin karena beberapa algoritma hanya dapat mempelajari seluruh rangkaian.
Jan van der Vegt
@ Trailblazer berkaitan dengan pertanyaan ruang sampel, yang dapat bekerja untuk beberapa algoritma tetapi tidak untuk yang lain, ini lagi tergantung pada kemungkinan pembelajaran online tetapi Anda juga harus terus meningkatkan bobot atau melatih kembali pada segala sesuatu, Anda tidak dapat secara retroaktif mengurangi bobot pada sampel yang lebih tua tanpa pelatihan ulang
Jan van der Vegt
0

Ini terutama tergantung pada jenis pembelajaran yang dilakukan algoritma ml Anda. Untuk pembelajaran Offline: melatih semuanya adalah bijaksana karena beberapa algoritma memerlukan data lengkap Anda untuk menghasilkan asumsi yang lebih baik. Pembelajaran online: Model Anda dapat disesuaikan dengan data terbaru atau terbaru dengan pembaruan dalam model saat data tiba.

yash kumar
sumber