Saya tidak terbiasa menggunakan variabel dalam format tanggal dalam R. Saya hanya ingin tahu apakah mungkin untuk menambahkan variabel tanggal sebagai variabel penjelas dalam model regresi linier. Jika memungkinkan, bagaimana kita bisa menafsirkan koefisien? Apakah itu efek satu hari pada variabel hasil?
Lihat intisari saya dengan contoh apa yang saya coba lakukan.
r
regression
time-series
PAC
sumber
sumber
Jawaban:
Membangun komentar sebelumnya tentang Stack Overflow:
Ya, itu masuk akal. Di sini saya menjawab pertanyaan umum dan dengan senang hati membiarkan para ahli R mengisi rincian penting. Dalam pandangan saya, karena ini sekarang di Cross-Validated, kita tidak boleh terlalu fokus pada perangkat lunak favorit poster, meskipun penting bagi orang-orang yang berpikiran sama.
Tanggal dalam perangkat lunak apa pun jika tidak numerik dapat dikonversi ke variabel numerik, dinyatakan dalam tahun, hari, milidetik atau apa pun sejak beberapa waktu berasal. Koefisien yang terkait dengan masing-masing tanggal memiliki unit penyebut yang berapapun satuan tanggalnya. Unit pembilang tergantung pada respon atau variabel dependen. (Fungsi tautan non-identitas mempersulit ini, tentu saja.)
Namun, biasanya masuk akal ketika tanggal digeser ke asal yang masuk akal untuk penelitian. Biasanya, tetapi tidak harus, asal harus tanggal dalam periode waktu studi atau sangat dekat dengannya.
Mungkin kasus paling sederhana adalah regresi linier pada variabel tanggal dalam tahun. Sini regresi dari beberapa
response
padadate
dinyatakan sebagai tanggal seperti 2000 atau 2010 menyiratkan intercept yang merupakan nilairesponse
pada tahun 0. Dengan mengesampingkan detail penanggalan bahwa tidak ada tahun tersebut, intercept seperti sering positif kepalang besar atau negatif, yang logis tetapi gangguan dalam interpretasi dan presentasi (bahkan untuk audiens yang berpengetahuan luas).Dalam contoh nyata dari bekerja dengan mahasiswa sarjana, jumlah siklon per tahun di daerah tertentu sedikit meningkat dengan tanggal dan tren linier tampak tikaman pertama yang masuk akal. Pencegatan dari regresi adalah angka negatif yang besar, yang menyebabkan banyak kebingungan sampai disadari bahwa ini adalah, seperti biasa, ekstrapolasi ke tahun 0. Mengubah asal ke tahun 2000 menghasilkan hasil yang lebih baik. (Sebenarnya, regresi Poisson memastikan prediksi positif bahkan lebih baik, tapi itu cerita yang berbeda.)
Mengembalikan tekanan pada
date - 2000
atau apapun itu adalah ide yang baik. Rincian substantif dari suatu penelitian sering menunjukkan tanggal dasar yang baik, yaitu asal baru.Penggunaan model lain dan / atau prediktor lain tidak merusak prinsip ini; itu hanya mengaburkannya.
Ini juga merupakan ide bagus untuk membuat grafik hasil menggunakan tanggal apa pun yang paling mudah untuk dipikirkan. Ini mungkin tanggal asli; itu bukan kontradiksi, karena itu prinsip yang sama menggunakan apa pun yang paling mudah untuk dipikirkan.
Sedikit pemikiran menunjukkan bahwa prinsipnya jauh lebih umum. Kita sering lebih baik dengan (usia - 20) atau semacamnya, untuk menghindari prediksi yang logis tetapi canggung untuk usia 0.
EDIT 21 Maret 2019 (asli 29 Jul 2013): Argumen ini telah dibahas dalam konteks Stata di Cox, NJ 2015. Spesies asal. Stata Journal 15: 574-587 lihat di sini
EDIT 2 juga 4 Des 2015 @whuber dalam komentar juga memunculkan isu penting tentang ketepatan angka. Seringkali unit waktu baik-baik saja dan tanggal atau waktu tanggal yang dihasilkan bisa sangat besar, mengangkat masalah penting untuk jumlah kuadrat, dan seterusnya dan seterusnya. Dia mengangkat contoh dari R. Untuk itu kita dapat menambahkan (misalnya) bahwa tanggal-waktu di Stata adalah milidetik sejak awal 1960. Masalah ini sama sekali tidak spesifik untuk tanggal, karena dapat muncul secara umum dengan angka yang sangat besar atau sangat kecil, tetapi juga layak untuk ditandai.
sumber
R
paket regresi populer yang gagal dengan regresi tanggal karena tidak menstandarkannya secara internal. Karena representasi tanggal default adalah dalam hitungan detik sejak 1970, tanggal terakhir adalah dalam miliaran dan kuadrat yang terlibat dalam rumus menghapuskan sebagian besar atau semua presisi dalam hasil ketika regressor lain memiliki nilai dekatSeperti yang telah dikatakan di atas, dengan penskalaan yang sesuai, kurma merupakan regresi besar. Efek waktu cenderung linier daripada kovariat tipikal, jadi saya hampir selalu menggunakan splines regresi dalam waktu. Beberapa tren waktu yang rumit membutuhkan banyak simpul (misalnya, 7 atau lebih) agar sesuai. Spline kubik terbatas (natural splines) memberikan ekstrapolasi linier yang lebih aman di luar waktu pengamatan, meskipun ekstrapolasi jarang sepenuhnya aman.
sumber