Saya mempertimbangkan masalah klasifikasi (multi-kelas) berdasarkan seri waktu dari panjang variabel , yaitu, untuk menemukan fungsi melalui representasi global dari seri waktu oleh serangkaian fitur yang dipilih dari ukuran tetap independen dari , dan kemudian gunakan metode klasifikasi standar pada set fitur ini. Saya tidak tertarik dengan perkiraan, yaitu memprediksif ( X T ) = y ∈ [ 1 .. K ]v i D T ϕ ( X T ) = v 1 , … , v D ∈ R ,
Apa saja fitur standar yang dapat saya perhitungkan? Sebagai contoh, kita dapat dengan jelas menggunakan mean dan varians dari seri (atau momen urutan yang lebih tinggi) dan juga melihat ke dalam domain frekuensi, seperti energi yang terkandung dalam beberapa interval Transformasi Fourier Disk dari seri (atau Transformasi Wavelet Diskrit ).
Emile, saya pikir fitur yang tercantum dalam jawaban Anda adalah titik awal yang cukup bagus, meskipun seperti biasa, saya pikir beberapa keahlian domain (atau setidaknya pemikiran panjang yang baik) tentang masalah Anda sama pentingnya.
Anda mungkin ingin mempertimbangkan untuk menyertakan fitur yang dihitung dari turunan (atau integral) dari sinyal Anda. Sebagai contoh, saya akan bertaruh bahwa akselerasi / deselerasi yang cepat adalah prediktor yang cukup baik untuk mengemudi yang cenderung kecelakaan. Informasi itu jelas masih ada dalam sinyal posisi, tetapi hampir tidak eksplisit.
Anda mungkin juga ingin mempertimbangkan untuk mengganti koefisien Fourier dengan representasi paket wavelet atau wavelet. Keuntungan utama dari wavelet adalah mereka memungkinkan Anda untuk melokalkan fitur baik dalam frekuensi maupun waktu, sedangkan koefisien Fourier tradisional dibatasi hanya untuk waktu. Ini mungkin sangat berguna jika data Anda mengandung komponen yang menghidupkan / mematikan secara tidak teratur atau memiliki gelombang seperti gelombang persegi yang dapat bermasalah untuk metode Fourier.
sumber
Seperti jawaban lain yang disarankan, ada sejumlah besar karakteristik deret waktu yang dapat digunakan sebagai fitur potensial. Ada fitur sederhana seperti rata-rata, fitur terkait seri waktu seperti koefisien model AR atau fitur yang sangat canggih seperti statistik uji augmented dickey fuller.
Tinjauan Komprehensif atas kemungkinan fitur deret waktu
Paket python tsfresh mengotomatiskan ekstraksi fitur-fitur tersebut. Dokumentasinya menjelaskan berbagai fitur terhitung. Anda dapat menemukan halaman dengan fitur yang dihitung di sini .
Penafian: Saya adalah salah satu penulis tsfresh.
sumber
Saya sarankan Anda, alih-alih menggunakan pendekatan klasik untuk mengekstraksi fitur rekayasa tangan, memanfaatkan autoencoder . Autoencoder memainkan peran penting dalam ekstraksi fitur arsitektur pembelajaran yang mendalam.
Autoencoder mencoba mempelajari fungsi . Dengan kata lain, ia mencoba untuk mempelajari perkiraan fungsi identitas, sehingga menghasilkan yang mirip dengan .X T X Tf(XT)≈XT X^T XT
Fungsi identitas tampaknya merupakan fungsi yang sangat sepele untuk dipelajari; tetapi dengan menempatkan kendala pada jaringan, seperti dengan membatasi jumlah unit tersembunyi, kita dapat menemukan struktur yang menarik tentang data.
Dengan cara ini, Anda inginkan akan setara dengan nilai-nilai output dari lapisan yg terdekat dr pusat dalam autoencoder dalam, Jika Anda membatasi jumlah unit tersembunyi di yg terdekat dr pusat untuk .ϕ(XT)=v1,…,vD∈R D
Selain itu, Anda dapat menggunakan banyak rasa autoencoder untuk menemukan solusi terbaik untuk masalah Anda.
sumber
Makalah yang ditautkan akan agak mencerahkan, karena tertarik pada masalah yang kurang lebih sama dalam konteks lain.
Abstrak kertas (di Internet Archive)
Kertas PDF
sumber
Bergantung pada lamanya deret waktu Anda, pendekatan yang biasa adalah untuk menyatukan data menjadi beberapa segmen, misalnya 10 detik.
Namun, seringkali sebelum memecah seri-waktu menjadi segmen-segmen, perlu untuk melakukan beberapa preprocessing seperti penyaringan dan penolakan artifak. Anda kemudian dapat menghitung berbagai fitur seperti yang didasarkan pada frekuensi (yaitu mengambil FFT untuk setiap zaman), waktu (misalnya rata-rata, varian dll dari seri waktu dalam zaman itu) atau morfologi, (yaitu bentuk sinyal / time-series di setiap zaman).
Biasanya fitur yang digunakan untuk mengklasifikasikan segmen (zaman) seri-waktu / sinyal bersifat spesifik-domain tetapi analisis Wavelet / Fourier hanyalah alat untuk memungkinkan Anda memeriksa sinyal Anda dalam domain frekuensi / waktu-frekuensi daripada menjadi fitur dalam diri mereka sendiri.
Dalam masalah klasifikasi setiap zaman akan memiliki label kelas misalnya 'bahagia' atau 'sedih', Anda kemudian akan melatih classifier untuk membedakan antara zaman 'bahagia' dan 'sedih' menggunakan 6 fitur yang dihitung untuk setiap zaman.
Jika setiap seri waktu mewakili satu kasus untuk klasifikasi, Anda harus menghitung setiap fitur di semua sampel dari seri waktu. FFT hanya relevan di sini jika sinyal linier invarian waktu (LTI), yaitu jika sinyal dapat dianggap stasioner selama seluruh seri waktu, jika sinyal tidak stasioner selama periode bunga, analisis wavelet mungkin lebih tepat. Pendekatan ini akan berarti bahwa setiap deret waktu akan menghasilkan satu vektor fitur dan akan menjadi satu kasus untuk klasifikasi.
sumber