Setiap pengamatan dalam data saya dikumpulkan dengan selisih 0,1 detik. Saya tidak menyebutnya seri waktu karena tidak memiliki cap tanggal dan waktu. Dalam contoh algoritma pengelompokan (saya temukan online) dan PCA data sampel memiliki 1 pengamatan per kasus dan tidak dihitung waktunya. Tetapi data saya memiliki ratusan pengamatan yang dikumpulkan setiap 0,1 detik per kendaraan dan ada banyak kendaraan.
Catatan: Saya juga menanyakan pertanyaan ini pada quora.
algorithms
umair durrani
sumber
sumber
Jawaban:
Apa yang Anda miliki adalah urutan acara berdasarkan waktu jadi jangan ragu untuk menyebutnya Time Series!
Clustering dalam deret waktu memiliki 2 arti berbeda:
Saya berasumsi maksud Anda yang kedua dan inilah saran saya:
Anda memiliki banyak kendaraan dan banyak pengamatan per kendaraan yaitu Anda memiliki banyak kendaraan. Jadi, Anda memiliki beberapa matriks (setiap kendaraan adalah matriks) dan setiap matriks berisi baris N (pengamatan Nr) dan kolom T (titik waktu). Satu saran bisa menerapkan PCA ke setiap matriks untuk mengurangi dimenssionalitas dan mengamati data dalam ruang PC dan melihat apakah ada hubungan yang bermakna antara pengamatan yang berbeda dalam suatu matriks (kendaraan) . Kemudian Anda dapat menempatkan setiap pengamatan untuk semua kendaraan satu sama lain dan membuat matriks dan menerapkan PCA untuk itu untuk melihat hubungan pengamatan tunggal antara kendaraan yang berbeda.
Jika Anda tidak memiliki nilai negatif Matriks Faktorisasi sangat disarankan untuk pengurangan dimensi data formulir matriks.
Saran lain dapat menempatkan semua matriks di atas satu sama lain dan membangun tensor N x M x T di mana N adalah jumlah kendaraan, M adalah jumlah pengamatan dan T adalah urutan waktu dan menerapkan Dekomposisi Tensor untuk melihat hubungan secara global.
Pendekatan yang sangat bagus untuk Time Series Clustering ditunjukkan dalam makalah ini di mana implementasinya berjalan lurus ke depan.
Saya harap ini membantu!
Semoga berhasil :)
EDIT
Seperti yang Anda sebutkan maksud Anda Segmentasi Seri Waktu, saya menambahkan ini ke jawabannya.
Segmentasi seri waktu adalah satu-satunya masalah pengelompokan yang memiliki dasar kebenaran untuk evaluasi. Memang Anda mempertimbangkan distribusi pembangkit di belakang deret waktu dan menganalisisnya, saya sangat merekomendasikan ini , ini , ini , ini , ini dan ini di mana masalah Anda dipelajari secara komprehensif. Khusus yang terakhir dan tesis PhD.
Semoga berhasil!
sumber