Pemilihan model dalam pembelajaran offline vs. online

11

Saya telah mencoba untuk belajar lebih banyak tentang pembelajaran online akhir-akhir ini (ini benar-benar menarik!), Dan satu tema yang belum saya pahami dengan baik adalah bagaimana memikirkan pemilihan model dalam konteks offline versus online. Secara khusus, misalkan kita melatih classifier sebuah offline, berdasarkan beberapa data fixed set . Kami memperkirakan karakteristik kinerjanya melalui validasi silang, katakanlah, dan kami memilih classifier terbaik dengan cara ini.SD

Inilah yang saya pikirkan: bagaimana, kemudian, bagaimana kita menerapkan ke pengaturan online? Bisakah kita berasumsi bahwa terbaik yang ditemukan offline juga akan berfungsi dengan baik sebagai pengklasifikasi online? Apakah masuk akal untuk mengumpulkan beberapa data untuk melatih , kemudian mengambil classifier yang sama dan "mengoperasionalkannya" dalam pengaturan online dengan parameter yang sama ditemukan pada , atau mungkin pendekatan lain lebih baik? Apa peringatan dalam kasus ini? Apa hasil utama di sini? Dan seterusnya.SSSSD

Ngomong-ngomong, sekarang yang ada di luar sana, saya kira apa yang saya cari adalah beberapa referensi atau sumber daya yang akan membantu saya (dan mudah-mudahan orang lain, yang telah memikirkan hal semacam ini!) Melakukan transisi dari berpikir semata-mata dalam istilah offline, dan kembangkan kerangka mental untuk memikirkan masalah pemilihan model dan pertanyaan-pertanyaan ini dengan cara yang lebih koheren ketika pembacaan saya berlanjut.

tetragrammaton
sumber
Sudahkah Anda memiliki petunjuk berguna, atau apakah Anda memiliki saran untuk diberikan sekarang? Terima kasih!
user1953384
Saya menyarankan Anda untuk melihat kertas oleh Francesco " arxiv.org/pdf/1406.3816v1.pdf " di mana ia bersama-sama melakukan pemilihan model dan optimalisasi dalam satu kesempatan.
chandresh
Jika Anda dapat melewati dinding bayar, ini bisa menjadi referensi yang sangat bagus: cognet.mit.edu/journal/10.1162/089976601750265045 ?
Disiplin

Jawaban:

1

Jelas, dalam konteks streaming Anda tidak dapat membagi data menjadi kereta dan set tes untuk melakukan validasi silang. Hanya menggunakan metrik yang dihitung pada set kereta awal terdengar lebih buruk, karena Anda menganggap bahwa data Anda berubah dan model Anda akan beradaptasi dengan perubahan - itu sebabnya Anda menggunakan mode pembelajaran online di tempat pertama.

Yang bisa Anda lakukan adalah menggunakan jenis validasi silang yang digunakan dalam deret waktu (lihat Hyndman dan Athanasopoulos, 2018 ). Untuk menilai keakuratan model deret waktu, Anda bisa menggunakan metode berurutan, di mana model dilatih pada pengamatan untuk memprediksi titik waktu "masa depan". Ini dapat diterapkan satu titik pada satu waktu, atau dalam batch, dan prosedur ini diulangi hingga Anda telah melewati semua data Anda (lihat gambar di bawah, diambil dari Hyndman dan Athanasopoulos, 2018 ).kk+1

Pada akhirnya, Anda entah bagaimana rata-rata (biasanya rata-rata aritmatika, tetapi Anda juga bisa menggunakan sesuatu seperti penghalusan eksponensial) metrik kesalahan untuk mendapatkan perkiraan akurasi keseluruhan.

masukkan deskripsi gambar di sini

Dalam skenario online ini berarti Anda mulai pada timepoint 1 dan menguji pada timepoint 2, melatih kembali pada timepoint 2, untuk menguji pada timepoint 3 dll.

Perhatikan bahwa metodologi validasi silang semacam itu memungkinkan Anda menjelaskan sifat perubahan kinerja model Anda. Jelas, karena model Anda beradaptasi dengan data dan data dapat berubah, Anda perlu memantau metrik kesalahan secara teratur: jika tidak, tidak akan jauh berbeda dengan menggunakan kereta ukuran tetap dan set tes.

Tim
sumber