Apakah "hour of the day" di mana nilainya bisa 0, 1, 2, ..., 23 menjadi variabel kategori? Saya akan tergoda untuk mengatakan tidak, karena 5, misalnya, 'lebih dekat' ke 4 atau 6 daripada ke 3 atau 7.
Di sisi lain, ada diskontinuitas antara 23 dan 0.
Jadi apakah secara umum dianggap kategorikal atau tidak? Perhatikan bahwa 'jam' adalah salah satu variabel independen, bukan variabel yang saya coba prediksi.
categorical-data
circular-statistics
Paul Reiners
sumber
sumber
Jawaban:
Bergantung pada apa yang Anda ingin model, jam (dan banyak atribut lain seperti musim) sebenarnya variabel siklik ordinal. Dalam hal musim, Anda dapat menganggapnya lebih atau kurang kategorikal, dan jika berjam-jam Anda dapat memodelkannya sebagai berkelanjutan juga.
Namun, menggunakan jam dalam model Anda dalam bentuk yang tidak menjaga siklus untuk Anda tidak akan berbuah. Alih-alih mencoba memunculkan semacam transformasi. Menggunakan jam Anda dapat menggunakan pendekatan trigonometri oleh
Dengan demikian Anda lebih suka menggunakan
xhr
danyhr
untuk pemodelan. Lihat posting ini misalnya: Penggunaan prediktor melingkar dalam regresi linier .sumber
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
& seterusnya dapat ditambahkan, sampai pada titik di mana dengan pengamatan yang cukup Anda dapat memperlakukan jam dalam sehari sebagai kategori.)Jam sehari tidak terbaik direpresentasikan sebagai variabel kategorikal, karena ada urutan alami dari nilai-nilai. Warna rambut, misalnya, adalah kategoris, karena pemesanan kategori tidak memiliki arti - {merah, coklat, pirang} sama validnya dengan {pirang, coklat, merah}. Di lain pihak, jamnya memiliki pesanan alami - jam 9 pagi lebih dekat jam 10 pagi atau jam 8 pagi daripada jam 6 sore. Ini dianggap sebagai variabel ordinal diskrit. Ia memiliki karakteristik tambahan sebagai siklik, karena jam 12 pagi mengikuti jam 11 malam dan mendahului jam 1 pagi.
sumber
Secara teoritis, itu tergantung pada bagaimana Anda memformat variabel yaitu itu bisa "berkelanjutan" (dimodelkan dengan koefisien tunggal) atau kategorikal (koefisien per "jam" hari). Anda juga bisa melakukan campuran keduanya, misalnya fungsi sepotong-bijaksana.
Secara praktis, karena 0 dan 23 pada dasarnya adalah "jam" yang sama, saya akan mempertimbangkan pengelompokan periode hari menjadi pengelompokan yang lebih besar, lebih homogen dan kredibel. Misalnya, dalam peningkatan 8 jam - 8 pagi - 4 sore, 4 sore - 12 pagi, dan 12-8 pagi.
sumber