Saya sering membangun model (klasifikasi atau regresi) di mana saya memiliki beberapa variabel prediktor yang berurutan dan saya telah berusaha untuk menemukan rekomendasi teknik untuk merangkumnya dengan cara terbaik untuk dimasukkan sebagai prediktor dalam model.
Sebagai contoh konkret, katakanlah model sedang dibangun untuk memprediksi jika pelanggan akan meninggalkan perusahaan dalam 90 hari ke depan (kapan saja antara t dan t + 90; dengan demikian hasil biner). Salah satu prediktor yang tersedia adalah tingkat saldo keuangan pelanggan untuk periode t_0 hingga t-1. Mungkin ini merupakan pengamatan bulanan untuk 12 bulan sebelumnya (yaitu 12 pengukuran).
Saya mencari cara untuk membangun fitur dari seri ini. Saya menggunakan deskripsi dari setiap seri pelanggan seperti mean, tinggi, rendah, std dev., Sesuai dengan regresi OLS untuk mendapatkan tren. Apakah metode mereka yang lain menghitung fitur? Ukuran perubahan atau volatilitas lainnya?
MENAMBAHKAN:
Seperti disebutkan dalam respons di bawah ini, saya juga mempertimbangkan (tetapi lupa untuk menambahkan di sini) menggunakan Dynamic Time Warping (DTW) dan kemudian pengelompokan hierarkis pada matriks jarak yang dihasilkan - membuat sejumlah cluster dan kemudian menggunakan keanggotaan cluster sebagai fitur. Mencetak data uji kemungkinan harus mengikuti proses di mana DTW dilakukan pada kasus baru dan cluster centroid - mencocokkan seri data baru dengan centroid terdekat ...
Ekstraksi fitur selalu menjadi tantangan dan topik yang kurang dibahas dalam literatur, karena itu tergantung aplikasi secara luas.
Beberapa ide yang dapat Anda coba:
sumber
Sekilas, Anda perlu mengekstrak fitur dari deret waktu Anda (x - 12) - x. Salah satu pendekatan yang mungkin adalah menghitung metrik ringkasan: rata-rata, dispersi, dll. Tetapi dengan melakukan itu, Anda akan kehilangan semua informasi terkait rangkaian waktu. Tetapi data, yang diekstraksi dari bentuk kurva mungkin cukup berguna. Saya merekomendasikan Anda untuk melihat-lihat artikel ini , di mana penulis mengusulkan algoritma untuk pengelompokan seri waktu. Semoga bermanfaat. Selain itu untuk pengelompokan seperti itu Anda dapat menambahkan statistik ringkasan ke daftar fitur Anda.
sumber