Saya mencoba memanfaatkan regresi RF untuk membuat prediksi tentang kinerja pabrik kertas.
Saya memiliki data menit demi menit untuk input (laju dan jumlah bubur kayu masuk dll ...) serta untuk kinerja mesin (kertas yang diproduksi, daya yang ditarik oleh mesin) dan saya ingin membuat prediksi 10 menit di depan pada variabel kinerja.
Saya punya data 12 bulan, jadi pisahkan menjadi 11 bulan untuk set pelatihan, dan bulan terakhir untuk pengujian.
Sejauh ini saya telah membuat 10 fitur baru yang nilai lagged oleh 1-10 menit untuk masing-masing variabel kinerja, dan menggunakannya serta input untuk membuat prediksi. Kinerja pada set tes sudah cukup bagus (sistemnya cukup dapat diprediksi), tapi saya khawatir saya kehilangan sesuatu dalam pendekatan saya.
Sebagai contoh, dalam makalah ini , penulis menyatakan pendekatan mereka dalam menguji kemampuan prediktif model hutan acak mereka:
Simulasi dilanjutkan dengan menambahkan secara iteratif data minggu baru, melatih model baru berdasarkan data yang diperbarui, dan memprediksi jumlah wabah untuk minggu berikutnya
Apa bedanya dengan menggunakan data 'nanti' dalam rangkaian waktu sebagai pengujian? Haruskah saya memvalidasi model regresi RF saya dengan pendekatan ini serta pada set data pengujian? Selain itu, apakah pendekatan 'autoregresif' semacam ini untuk regresi hutan acak berlaku untuk deret waktu, dan apakah saya perlu membuat banyak variabel yang tertinggal ini jika saya tertarik dengan prediksi 10 menit di masa mendatang?
sumber
Jawaban:
Pendekatan yang Anda kutip disebut peramalan "asal bergulir": asal dari mana kami perkirakan keluar "digulirkan ke depan", dan data pelatihan diperbarui dengan informasi yang baru tersedia. Pendekatan yang lebih sederhana adalah "perkiraan asal tunggal", di mana kami memilih satu asal.
Keuntungan dari perkiraan asal bergulir adalah bahwa ia mensimulasikan sistem perkiraan dari waktu ke waktu . Dalam peramalan asal tunggal, kita mungkin secara kebetulan memilih asal di mana sistem kami bekerja dengan sangat baik (atau sangat buruk), yang mungkin memberi kita gagasan yang salah tentang kinerja sistem kami.
Salah satu kelemahan dari perkiraan asal bergulir adalah kebutuhan data yang lebih tinggi. Jika kita ingin meramalkan 10 langkah dengan setidaknya 50 pengamatan historis, maka kita dapat melakukan asal tunggal ini dengan 60 titik data secara keseluruhan. Tetapi jika kita ingin melakukan 10 asal bergulir yang tumpang tindih, maka kita membutuhkan 70 titik data.
Kerugian lainnya tentu saja kompleksitasnya lebih tinggi.
Tidak perlu dikatakan, Anda juga tidak boleh menggunakan data "nanti" dalam prakiraan asal bergulir, tetapi hanya menggunakan data sebelum asal yang Anda gunakan di setiap iterasi.
Jika Anda memiliki cukup data, evaluasi asal bergulir akan selalu mengilhami lebih banyak kepercayaan pada saya daripada evaluasi asal tunggal, karena diharapkan akan rata-rata dampak dari asal.
Ya, peramalan bergulir vs. asal tunggal valid untuk latihan prediktif apa pun . Itu tidak tergantung pada apakah Anda menggunakan hutan acak atau ARIMA atau apa pun.
Apakah Anda memerlukan variabel tertinggal Anda adalah sesuatu yang kami tidak dapat menasihati Anda. Mungkin lebih baik untuk berbicara dengan ahli materi pelajaran, yang mungkin juga menyarankan masukan lain. Coba saja RF Anda dengan input yang tertinggal vs yang tanpa. Dan juga membandingkan tolok ukur standar seperti ARIMA atau ETS atau bahkan metode yang lebih sederhana, yang bisa sangat sulit dikalahkan .
sumber