Apakah jam sehari merupakan variabel kategori?

24

Apakah "hour of the day" di mana nilainya bisa 0, 1, 2, ..., 23 menjadi variabel kategori? Saya akan tergoda untuk mengatakan tidak, karena 5, misalnya, 'lebih dekat' ke 4 atau 6 daripada ke 3 atau 7.

Di sisi lain, ada diskontinuitas antara 23 dan 0.

Jadi apakah secara umum dianggap kategorikal atau tidak? Perhatikan bahwa 'jam' adalah salah satu variabel independen, bukan variabel yang saya coba prediksi.

Paul Reiners
sumber
7
Apa yang ingin Anda capai? Jika Anda memasang model, apakah jam kovariat atau responsnya, mis?
gung - Reinstate Monica
2
Anda bisa menggunakan variabel dummy untuk setiap jam jika Anda memiliki cukup derajat kebebasan (mis. Memperlakukan sebagai kategori), atau menggunakan beberapa istilah Fourier pertama jika Anda belum. Secara umum pikirkan bagaimana cara terbaik mewakili hubungan potensial dengan respons - satu variabel dummy yang ditandai ketika toko-toko buka mungkin berfungsi.
Scortchi
Sesuatu seperti jam dapat diperlakukan sebagai "kategoris" atau "numerik" tergantung pada yang paling berhasil. Tidak ada jawaban benar atau salah secara umum - itu tergantung pada apa yang paling berhasil. Saya akan merekomendasikan mencoba hal-hal yang berbeda dan melihat apa yang paling sesuai dengan situasi Anda.
roundsquare

Jawaban:

29

Bergantung pada apa yang Anda ingin model, jam (dan banyak atribut lain seperti musim) sebenarnya variabel siklik ordinal. Dalam hal musim, Anda dapat menganggapnya lebih atau kurang kategorikal, dan jika berjam-jam Anda dapat memodelkannya sebagai berkelanjutan juga.

Namun, menggunakan jam dalam model Anda dalam bentuk yang tidak menjaga siklus untuk Anda tidak akan berbuah. Alih-alih mencoba memunculkan semacam transformasi. Menggunakan jam Anda dapat menggunakan pendekatan trigonometri oleh

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Dengan demikian Anda lebih suka menggunakan xhrdan yhruntuk pemodelan. Lihat posting ini misalnya: Penggunaan prediktor melingkar dalam regresi linier .

Sarang tupai
sumber
2
(+1) Bisakah Anda menguraikan perbedaan antara musim & jam?
Scortchi
Hmm, saya pikir musim memiliki arti yang sama seperti pagi, siang, dan malam ketika berbicara sekitar jam di siang hari. Imho ketika hanya informasi samar yang tersedia dan resolusinya buruk (seperti 4 nilai di musim) menganggap mereka kategorikal dan menggunakan variabel dummy untuk pengkodean tampaknya masuk akal. :-)
Drey
1
Saya pikir poin kuncinya adalah, karena hanya ada 4 musim, menggunakan trigonometri. Pendekatan dibandingkan dengan representasi kategoris yang Anda hanya punya 1 derajat kebebasan - dengan jam hari Anda cadangan 21 derajat kebebasan. (Dan jika Anda tidak perlu menyisihkannya, maka xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)& seterusnya dapat ditambahkan, sampai pada titik di mana dengan pengamatan yang cukup Anda dapat memperlakukan jam dalam sehari sebagai kategori.)
Scortchi - Reinstate Monica
Atau lihatlah splines siklik .
kjetil b halvorsen
1

Jam sehari tidak terbaik direpresentasikan sebagai variabel kategorikal, karena ada urutan alami dari nilai-nilai. Warna rambut, misalnya, adalah kategoris, karena pemesanan kategori tidak memiliki arti - {merah, coklat, pirang} sama validnya dengan {pirang, coklat, merah}. Di lain pihak, jamnya memiliki pesanan alami - jam 9 pagi lebih dekat jam 10 pagi atau jam 8 pagi daripada jam 6 sore. Ini dianggap sebagai variabel ordinal diskrit. Ia memiliki karakteristik tambahan sebagai siklik, karena jam 12 pagi mengikuti jam 11 malam dan mendahului jam 1 pagi.

Wang Nuklir
sumber
Apakah tidak ada urutan alami untuk nilai-nilai variabel kategorikal tertentu?
dsaxton
Ya, tetapi mereka lebih baik digambarkan sebagai ordinal dalam kasus itu. Variabel ordinal adalah variabel kategori yang memiliki urutan alami.
Nuklir Wang
1
Jadi bagaimana Anda mewakili variabel diskrit, ordinal, siklik sebagai prediktor dalam model regresi?
Scortchi
0

Secara teoritis, itu tergantung pada bagaimana Anda memformat variabel yaitu itu bisa "berkelanjutan" (dimodelkan dengan koefisien tunggal) atau kategorikal (koefisien per "jam" hari). Anda juga bisa melakukan campuran keduanya, misalnya fungsi sepotong-bijaksana.

Secara praktis, karena 0 dan 23 pada dasarnya adalah "jam" yang sama, saya akan mempertimbangkan pengelompokan periode hari menjadi pengelompokan yang lebih besar, lebih homogen dan kredibel. Misalnya, dalam peningkatan 8 jam - 8 pagi - 4 sore, 4 sore - 12 pagi, dan 12-8 pagi.

Frank H.
sumber
4
0 dan 23 adalah jam yang berbeda. 0 dan 24 akan menjadi jam yang sama.
Paul Reiners
BTW, saya berasumsi per komentar Gung bahwa jam sehari adalah variabel independen, bukan variabel dependen yang dimodelkan. Maksud saya adalah bahwa 0 dan 23 tidak jauh berbeda dalam kenyataan - apakah Anda akan mengatakan bahwa ada perbedaan statistik antara peristiwa model Anda yang terjadi pada 23:59 vs 0:01?
Frank H.
1
Tidak yakin masalah apa yang membuang informasi yang seharusnya dipecahkan. Lihat Apa manfaat memecah variabel prediktor kontinu? .
Scortchi
@Scortchi - seperti yang dikatakan oleh pos, Anda mengasumsikan hubungan yang berkelanjutan sehingga binning akan "membuang" informasi. Tetapi jika itu tidak terjadi, maka binning adalah transformasi yang lebih tepat. Dan ini mengasumsikan Anda memiliki cukup data untuk memulai, yang belum disebutkan OP.
Frank H.
Memberlakukan batasan pada hubungan antara prediktor & respons itu sendiri bukanlah hal yang buruk - karena Anda adalah yang pertama dalam posting ini, berapa banyak pengamatan yang tersedia merupakan pertimbangan penting -, tetapi yang dipaksakan oleh ini representasi jam sehari - rata dari jam delapan hingga jam lima belas, dengan lompatan atau penurunan pada jam enam belas, & seterusnya - tampaknya merupakan saran aneh untuk pendekatan yang umumnya cocok.
Scortchi