Saya ingin menggunakan model regresi logistik biner dalam konteks streaming data (seri waktu multidimensi) untuk memprediksi nilai variabel dependen dari data (yaitu baris) yang baru saja tiba, mengingat pengamatan sebelumnya. Sejauh yang saya tahu, regresi logistik secara tradisional digunakan untuk analisis postmortem, di mana setiap variabel dependen telah ditetapkan (baik dengan inspeksi, atau oleh sifat penelitian).
Apa yang terjadi dalam deret waktu, di mana kami ingin membuat prediksi (on the fly) tentang variabel dependen dalam hal data historis (misalnya dalam jendela waktu detik terakhir ) dan, tentu saja, sebelumnya perkiraan variabel dependen?
Dan jika Anda melihat sistem di atas dari waktu ke waktu, bagaimana seharusnya dibangun agar regresi berfungsi? Apakah kita harus melatihnya terlebih dahulu dengan memberi label, katakanlah, 50 baris pertama dari data kita (yaitu mengatur variabel dependen menjadi 0 atau 1) dan kemudian menggunakan estimasi saat ini dari vektor untuk memperkirakan probabilitas baru dari variabel dependen menjadi 0 atau 1 untuk data yang baru saja tiba (yaitu baris baru yang baru saja ditambahkan ke sistem)?
Untuk membuat masalah saya lebih jelas, saya mencoba membangun sistem yang mem-parsing kumpulan data baris demi baris dan mencoba membuat prediksi hasil biner (variabel dependen), mengingat pengetahuan (observasi atau estimasi) semua dependen sebelumnya atau penjelasan. variabel yang telah tiba di jendela waktu tetap. Sistem saya ada di Rerl dan menggunakan R untuk inferensi.
sumber
Jawaban:
Ada dua metode untuk dipertimbangkan:
Hanya gunakan sampel input N terakhir. Dengan asumsi sinyal input Anda berdimensi D, maka Anda memiliki sampel N * D per label kebenaran dasar. Dengan cara ini Anda bisa berlatih menggunakan classifier apa pun yang Anda suka, termasuk regresi logistik. Dengan cara ini, setiap output dianggap independen dari semua output lainnya.
Gunakan sampel input N terakhir dan output N terakhir yang Anda hasilkan. Masalahnya kemudian mirip dengan decoding viterbi . Anda bisa menghasilkan skor non-biner berdasarkan sampel input, dan menggabungkan skor beberapa sampel menggunakan decoder viterbi. Ini lebih baik daripada metode 1. jika Anda sekarang sesuatu tentang hubungan temporal antara output.
sumber