Saya punya pertanyaan tentang analisis kluster. Ada 3000 perusahaan, yang harus dikelompokkan sesuai dengan penggunaan daya mereka selama 5 tahun. Setiap perusahaan memiliki nilai untuk setiap jam selama 5 tahun. Saya ingin mengetahui apakah beberapa perusahaan memiliki pola yang sama dalam penggunaan daya selama periode waktu tersebut. Hasilnya harus digunakan untuk prediksi penggunaan daya harian. Jika Anda memiliki beberapa ide bagaimana mengelompokkan deret waktu dalam SPSS, silakan bagikan dengan saya.
time-series
clustering
spss
pengguna89686
sumber
sumber
Jawaban:
A) Luangkan banyak waktu untuk preproses data. Pra-pemrosesan adalah 90% dari pekerjaan Anda.
B) Pilih ukuran kesamaan yang sesuai untuk deret waktu. Sebagai contoh, threshold crossing distance mungkin merupakan pilihan yang baik di sini. Anda mungkin tidak akan menginginkan jarak waktu dinamis, kecuali Anda memiliki zona waktu berbeda. Ambang batas mungkin lebih tepat untuk mendeteksi pola temporal, sementara tidak memperhatikan besarnya sebenarnya (yang kemungkinan akan sangat berbeda dari perusahaan ke perusahaan).
C) Cluster matriks dissimlarity yang dihasilkan menggunakan metode seperti hierarchical clustering atau DBSCAN yang dapat bekerja dengan fungsi jarak arbitrer.
sumber
Anda mungkin ingin melihat seri waktu Perkiraan jam dengan periodisitas harian, mingguan & tahunanuntuk diskusi data per jam yang melibatkan data harian dan hari libur / regressor. Anda memiliki data 5 tahun sementara diskusi lainnya melibatkan 883 nilai harian. Apa yang saya sarankan adalah Anda bisa membuat ramalan setiap jam dengan menyertakan regressor seperti hari-of-the-week; minggu-tahun dan liburan menggunakan total harian sebagai prediktor tambahan. Dengan cara ini Anda akan memiliki 24 model untuk masing-masing 3.000 perusahaan. Sekarang apa yang ingin Anda lakukan adalah dengan jam, perkirakan 3.000 model menggunakan struktur ARIMAX umum untuk pola respons di sekitar masing-masing regressor, hari-of-the-minggu, perubahan hari-of-the-minggu parameter dan indikator mingguan sambil mengisolasi outlier. Kemudian Anda dapat memperkirakan parameter secara global menggunakan semua 3000 perusahaan. Lakukan Tes Chowhttp://en.wikipedia.org/wiki/Chow_test untuk keteguhan parameter dan setelah penolakan mengelompokkan perusahaan menjadi kelompok-kelompok yang homogen. Saya menyebut ini sebagai analisis kluster dimensi tunggal. Karena SPSS memiliki kemampuan yang sangat terbatas dalam rangkaian waktu, Anda mungkin ingin mencari tempat lain untuk perangkat lunak.
sumber