Apakah masuk akal untuk menggunakan variabel tanggal dalam regresi?

17

Saya tidak terbiasa menggunakan variabel dalam format tanggal dalam R. Saya hanya ingin tahu apakah mungkin untuk menambahkan variabel tanggal sebagai variabel penjelas dalam model regresi linier. Jika memungkinkan, bagaimana kita bisa menafsirkan koefisien? Apakah itu efek satu hari pada variabel hasil?

Lihat intisari saya dengan contoh apa yang saya coba lakukan.

PAC
sumber
3
Tanggal dapat dikonversi menjadi angka.
Kesan saya adalah bahwa R melakukannya secara otomatis
PAC
3
Tetapi jumlah yang dihasilkan seringkali besar, yang dapat menyebabkan masalah. Lebih baik mengonversi diri Anda sendiri, misalnya ke langkah waktu (jam atau hari atau ...) sejak awal pengukuran. Itu juga membuatnya lebih mudah untuk menafsirkan intersep.
Roland
3
Konversikan ke faktor (untuk mendapatkan efek tetap hari) atau konversi ke numerik dan skala ulang sehingga nilai hari pertama adalah 0 untuk mendapatkan efek linear hari sejak asal.
Thomas
1
Itu pertanyaan yang sangat bagus. Saya pikir keduanya adalah pertanyaan statistik dan pertanyaan pemrograman. Pertanyaan pemrograman adalah bagaimana R berurusan dengan tanggal ketika kita menempatkan tanggal sebagai variabel penjelas dalam model regresi dan pertanyaan statistik adalah tentang interpretasi yang tepat dari koefisien.
PAC

Jawaban:

17

Membangun komentar sebelumnya tentang Stack Overflow:

Ya, itu masuk akal. Di sini saya menjawab pertanyaan umum dan dengan senang hati membiarkan para ahli R mengisi rincian penting. Dalam pandangan saya, karena ini sekarang di Cross-Validated, kita tidak boleh terlalu fokus pada perangkat lunak favorit poster, meskipun penting bagi orang-orang yang berpikiran sama.

Tanggal dalam perangkat lunak apa pun jika tidak numerik dapat dikonversi ke variabel numerik, dinyatakan dalam tahun, hari, milidetik atau apa pun sejak beberapa waktu berasal. Koefisien yang terkait dengan masing-masing tanggal memiliki unit penyebut yang berapapun satuan tanggalnya. Unit pembilang tergantung pada respon atau variabel dependen. (Fungsi tautan non-identitas mempersulit ini, tentu saja.)

Namun, biasanya masuk akal ketika tanggal digeser ke asal yang masuk akal untuk penelitian. Biasanya, tetapi tidak harus, asal harus tanggal dalam periode waktu studi atau sangat dekat dengannya.

Mungkin kasus paling sederhana adalah regresi linier pada variabel tanggal dalam tahun. Sini regresi dari beberapa responsepada datedinyatakan sebagai tanggal seperti 2000 atau 2010 menyiratkan intercept yang merupakan nilairesponse pada tahun 0. Dengan mengesampingkan detail penanggalan bahwa tidak ada tahun tersebut, intercept seperti sering positif kepalang besar atau negatif, yang logis tetapi gangguan dalam interpretasi dan presentasi (bahkan untuk audiens yang berpengetahuan luas).

Dalam contoh nyata dari bekerja dengan mahasiswa sarjana, jumlah siklon per tahun di daerah tertentu sedikit meningkat dengan tanggal dan tren linier tampak tikaman pertama yang masuk akal. Pencegatan dari regresi adalah angka negatif yang besar, yang menyebabkan banyak kebingungan sampai disadari bahwa ini adalah, seperti biasa, ekstrapolasi ke tahun 0. Mengubah asal ke tahun 2000 menghasilkan hasil yang lebih baik. (Sebenarnya, regresi Poisson memastikan prediksi positif bahkan lebih baik, tapi itu cerita yang berbeda.)

Mengembalikan tekanan pada date - 2000atau apapun itu adalah ide yang baik. Rincian substantif dari suatu penelitian sering menunjukkan tanggal dasar yang baik, yaitu asal baru.

Penggunaan model lain dan / atau prediktor lain tidak merusak prinsip ini; itu hanya mengaburkannya.

Ini juga merupakan ide bagus untuk membuat grafik hasil menggunakan tanggal apa pun yang paling mudah untuk dipikirkan. Ini mungkin tanggal asli; itu bukan kontradiksi, karena itu prinsip yang sama menggunakan apa pun yang paling mudah untuk dipikirkan.

Sedikit pemikiran menunjukkan bahwa prinsipnya jauh lebih umum. Kita sering lebih baik dengan (usia - 20) atau semacamnya, untuk menghindari prediksi yang logis tetapi canggung untuk usia 0.

EDIT 21 Maret 2019 (asli 29 Jul 2013): Argumen ini telah dibahas dalam konteks Stata di Cox, NJ 2015. Spesies asal. Stata Journal 15: 574-587 lihat di sini

EDIT 2 juga 4 Des 2015 @whuber dalam komentar juga memunculkan isu penting tentang ketepatan angka. Seringkali unit waktu baik-baik saja dan tanggal atau waktu tanggal yang dihasilkan bisa sangat besar, mengangkat masalah penting untuk jumlah kuadrat, dan seterusnya dan seterusnya. Dia mengangkat contoh dari R. Untuk itu kita dapat menambahkan (misalnya) bahwa tanggal-waktu di Stata adalah milidetik sejak awal 1960. Masalah ini sama sekali tidak spesifik untuk tanggal, karena dapat muncul secara umum dengan angka yang sangat besar atau sangat kecil, tetapi juga layak untuk ditandai.

Nick Cox
sumber
1
Secara ekonometrika, tanggal sering digunakan sebagai proksi untuk variabel yang tak terukur, atau hanya data yang tidak dapat Anda peroleh dengan mudah. Hal ini dapat dilihat pada peningkatan tingkat penjualan produk tertentu dari perusahaan baru seiring waktu dengan meningkatnya pengakuan merek. Karena Anda kemungkinan besar tidak memiliki metrik untuk pengenalan merek, tanggal dapat digunakan sebagai proksi. Ini akan memberikan koefisien Anda yang lain "lebih realistis" koefisien. ** TL: DR ** Anda harus berhati-hati menggunakan tanggal dalam regresi Anda tanpa memikirkan tentang faktor tanggal yang tidak diukur yang mungkin berkorelasi dengan yang akan mempengaruhi variabel independen Anda
scott
1
Saran yang bagus. Saya menduga bahwa (fungsi) tanggal kalender biasanya merupakan proksi untuk beberapa proses dalam waktu yang sulit ditangkap, jadi intinya meluas jauh melampaui ekonometrik.
Nick Cox
1
Saya menyukai sinus dan cosinus seperti halnya siapa pun, tetapi contoh masalah apa di seluruh disiplin ilmu yang mengarah pada penilaian itu?
Nick Cox
1
Jika berminat lihat stata-journal.com/sjsearch.html?choice=keyword&q=season untuk tautan ke beberapa pekerjaan saya tentang musiman.
Nick Cox
3
+1 Komentar tentang pengalihan asal adalah penting. Baru-baru ini saya menulis ulang bagian dari Rpaket regresi populer yang gagal dengan regresi tanggal karena tidak menstandarkannya secara internal. Karena representasi tanggal default adalah dalam hitungan detik sejak 1970, tanggal terakhir adalah dalam miliaran dan kuadrat yang terlibat dalam rumus menghapuskan sebagian besar atau semua presisi dalam hasil ketika regressor lain memiliki nilai dekat1atau lebih kecil. Pilihan Wiser tentang asal tanggal (dan satuan pengukuran - tahun desimal hampir selalu berfungsi dengan baik) cenderung menghindari masalah seperti itu.
whuber
5

Seperti yang telah dikatakan di atas, dengan penskalaan yang sesuai, kurma merupakan regresi besar. Efek waktu cenderung linier daripada kovariat tipikal, jadi saya hampir selalu menggunakan splines regresi dalam waktu. Beberapa tren waktu yang rumit membutuhkan banyak simpul (misalnya, 7 atau lebih) agar sesuai. Spline kubik terbatas (natural splines) memberikan ekstrapolasi linier yang lebih aman di luar waktu pengamatan, meskipun ekstrapolasi jarang sepenuhnya aman.

Frank Harrell
sumber