Saya tidak tahu apakah ini merupakan praktik umum / terbaik, tetapi ini merupakan sudut pandang lain dari masalah ini.
Jika Anda memiliki, katakanlah, tanggal, Anda dapat memperlakukan setiap bidang sebagai "variabel kategori" alih-alih "variabel kontinu". Hari akan memiliki nilai dalam set {1, 2 ..., 31}, bulan akan memiliki nilai dalam {1, ..., 12} dan, untuk tahun tersebut, Anda memilih nilai minimum dan maksimum dan membangun satu set.
Kemudian, karena nilai numerik tertentu dari hari, bulan, dan tahun mungkin tidak berguna untuk menemukan tren dalam data, gunakan representasi biner untuk menyandikan nilai numerik, karena masing-masing bit merupakan fitur. Misalnya, bulan 5 akan menjadi 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 dan 1 di posisi 5, setiap bit menjadi fitur).
Jadi, setelah, misalnya, 10 tahun dalam "tahun set", tanggal akan diubah menjadi vektor 43 fitur (= 31 + 12 + 10). Menggunakan "vektor jarang", jumlah fitur seharusnya tidak menjadi masalah.
Hal serupa dapat dilakukan untuk data waktu, hari dalam seminggu, hari dalam sebulan ...
Itu semua tergantung dari pertanyaan yang Anda ingin model mesin pembelajaran Anda untuk menjawab.
Konteks Tanggapan saya : Sejauh ini sudah ada tanggapan yang luar biasa. Tapi, saya ingin memperluas percakapan dengan mengasumsikan Anda berbicara tentang aplikasi pembelajaran mesin untuk memprediksi nilai masa depan dari seri waktu tertentu ini. Dengan mengingat konteks itu, saran saya ada di bawah ini.
Saran : Pertama-tama perhatikan strategi peramalan statistik tradisional (mis. Penghalusan Eksponensial, SARIMAX atau Regresi Dinamis) sebagai dasar untuk kinerja prediksi. Meskipun pembelajaran mesin telah menunjukkan harapan besar untuk berbagai aplikasi, untuk deret waktu, ada metode statistik yang telah dicoba dan benar yang dapat membantu Anda lebih baik untuk aplikasi Anda. Saya akan menarik perhatian Anda pada dua artikel terbaru:
Jika Anda mencari kinerja yang baik, pilih metrik untuk dibandingkan dengan beberapa model (mis. Seperti MASE) dan sapu beberapa statistik (referensi di bawah) dan model pembelajaran mesin (dengan strategi pengembangan fitur yang disebutkan di atas).
Tepuk tangan,
Sumber daya untuk Mempelajari Peramalan Statistik : Saya akan mulai dengan meninjau buku teks gratis oleh Rob J Hyndman di sini: https://otexts.org/fpp2/ . Teks ini didasarkan pada paket R yang dapat Anda gabungkan dengan mudah ke dalam analisis Anda: https://otexts.org/fpp2/appendix-using-r.html . Akhirnya, harap perhatikan perbedaan antara validasi silang cross sectional dan validasi seri waktu seperti yang dijelaskan di sini: https://robjhyndman.com/hyndsight/tscv/ .
sumber