Regresi hutan acak untuk prediksi deret waktu

10

Saya mencoba memanfaatkan regresi RF untuk membuat prediksi tentang kinerja pabrik kertas.

Saya memiliki data menit demi menit untuk input (laju dan jumlah bubur kayu masuk dll ...) serta untuk kinerja mesin (kertas yang diproduksi, daya yang ditarik oleh mesin) dan saya ingin membuat prediksi 10 menit di depan pada variabel kinerja.

Saya punya data 12 bulan, jadi pisahkan menjadi 11 bulan untuk set pelatihan, dan bulan terakhir untuk pengujian.

Sejauh ini saya telah membuat 10 fitur baru yang nilai lagged oleh 1-10 menit untuk masing-masing variabel kinerja, dan menggunakannya serta input untuk membuat prediksi. Kinerja pada set tes sudah cukup bagus (sistemnya cukup dapat diprediksi), tapi saya khawatir saya kehilangan sesuatu dalam pendekatan saya.

Sebagai contoh, dalam makalah ini , penulis menyatakan pendekatan mereka dalam menguji kemampuan prediktif model hutan acak mereka:

Simulasi dilanjutkan dengan menambahkan secara iteratif data minggu baru, melatih model baru berdasarkan data yang diperbarui, dan memprediksi jumlah wabah untuk minggu berikutnya

Apa bedanya dengan menggunakan data 'nanti' dalam rangkaian waktu sebagai pengujian? Haruskah saya memvalidasi model regresi RF saya dengan pendekatan ini serta pada set data pengujian? Selain itu, apakah pendekatan 'autoregresif' semacam ini untuk regresi hutan acak berlaku untuk deret waktu, dan apakah saya perlu membuat banyak variabel yang tertinggal ini jika saya tertarik dengan prediksi 10 menit di masa mendatang?

KRS-menyenangkan
sumber
2
RF tidak dirancang untuk dan tidak secara eksplisit mengintegrasikan pertimbangan temporal. Mengingat hal itu, mengapa menggunakannya sama sekali untuk analisis ini? Ada banyak metodologi deret waktu di luar sana. Pilih salah satu.
Mike Hunter
2
@ Johnson Saya pikir saya akan mencoba untuk meniru pendekatan di koran: coba RF dan bandingkan dengan ARIMA. Apakah Anda menyarankan ini tidak sepadan dengan waktu dan hanya memanfaatkan ARIMA?
KRS-fun
4
@ Johnson, mekanisme model autoregresif mirip dengan model regresi cross-sectional. Setelah fitur-fitur yang tertinggal dibangun, mengapa tidak menggunakan RF seperti dalam pengaturan cross-sectional? Saya pikir adil untuk mencobanya. Tetapi Anda benar bahwa metode lain lebih populer dalam rangkaian waktu, dan OP mungkin mendapat manfaat dari menjelajahinya juga.
Richard Hardy
1
Pandangan saya adalah bahwa RF seperti palu di mana semuanya menjadi paku. Dengan data seperti yang dijelaskan oleh OP, pilihan pertama saya adalah data panel atau model gabungan, bukan ARIMA.
Mike Hunter
5
Saya menemukan ini sekarang, dan membaca makalah yang dimaksud beberapa hari yang lalu. Saya membandingkan hutan acak dan LSTM untuk perkiraan deret waktu multivarian. Menariknya, LSTM melakukan lebih baik ketika memasukkan lebih sedikit waktu dalam data pelatihan, tetapi ketika saya menambahkan dalam lebih banyak data tahun, hasil dari kedua metode konvergen ke hasil yang benar. Saya pikir ini sebagian besar karena fitur menyediakan informasi yang cukup untuk mengatasi komponen temporal. Bagaimanapun, pikir itu menarik. Juga, saya belum pernah melihat ARIMA bekerja dengan baik kecuali dalam kasus musiman yang sangat jelas, dan ARIMA multivarian adalah ...
Hobbes

Jawaban:

6

Apa bedanya dengan menggunakan data 'nanti' dalam rangkaian waktu sebagai pengujian?

Pendekatan yang Anda kutip disebut peramalan "asal bergulir": asal dari mana kami perkirakan keluar "digulirkan ke depan", dan data pelatihan diperbarui dengan informasi yang baru tersedia. Pendekatan yang lebih sederhana adalah "perkiraan asal tunggal", di mana kami memilih satu asal.

Keuntungan dari perkiraan asal bergulir adalah bahwa ia mensimulasikan sistem perkiraan dari waktu ke waktu . Dalam peramalan asal tunggal, kita mungkin secara kebetulan memilih asal di mana sistem kami bekerja dengan sangat baik (atau sangat buruk), yang mungkin memberi kita gagasan yang salah tentang kinerja sistem kami.

Salah satu kelemahan dari perkiraan asal bergulir adalah kebutuhan data yang lebih tinggi. Jika kita ingin meramalkan 10 langkah dengan setidaknya 50 pengamatan historis, maka kita dapat melakukan asal tunggal ini dengan 60 titik data secara keseluruhan. Tetapi jika kita ingin melakukan 10 asal bergulir yang tumpang tindih, maka kita membutuhkan 70 titik data.

Kerugian lainnya tentu saja kompleksitasnya lebih tinggi.

Tidak perlu dikatakan, Anda juga tidak boleh menggunakan data "nanti" dalam prakiraan asal bergulir, tetapi hanya menggunakan data sebelum asal yang Anda gunakan di setiap iterasi.

Haruskah saya memvalidasi model regresi RF saya dengan pendekatan ini serta pada set data pengujian?

Jika Anda memiliki cukup data, evaluasi asal bergulir akan selalu mengilhami lebih banyak kepercayaan pada saya daripada evaluasi asal tunggal, karena diharapkan akan rata-rata dampak dari asal.

Selain itu, apakah pendekatan 'autoregresif' semacam ini untuk regresi hutan acak berlaku untuk deret waktu, dan apakah saya perlu membuat banyak variabel yang tertinggal ini jika saya tertarik dengan prediksi 10 menit di masa mendatang?

Ya, peramalan bergulir vs. asal tunggal valid untuk latihan prediktif apa pun . Itu tidak tergantung pada apakah Anda menggunakan hutan acak atau ARIMA atau apa pun.

Apakah Anda memerlukan variabel tertinggal Anda adalah sesuatu yang kami tidak dapat menasihati Anda. Mungkin lebih baik untuk berbicara dengan ahli materi pelajaran, yang mungkin juga menyarankan masukan lain. Coba saja RF Anda dengan input yang tertinggal vs yang tanpa. Dan juga membandingkan tolok ukur standar seperti ARIMA atau ETS atau bahkan metode yang lebih sederhana, yang bisa sangat sulit dikalahkan .

Stephan Kolassa
sumber