Saya lulusan dari bisnis dan ekonomi yang saat ini belajar untuk gelar master dalam bidang teknik data. Saat mempelajari regresi linier (LR) dan kemudian analisis deret waktu (TS), sebuah pertanyaan muncul di benak saya. Mengapa membuat metode yang sama sekali baru, yaitu deret waktu (ARIMA), alih-alih menggunakan regresi linier berganda dan menambahkan variabel lagged ke dalamnya (dengan urutan lag ditentukan menggunakan ACF dan PACF)? Jadi guru menyarankan agar saya menulis sedikit esai tentang masalah ini. Saya tidak akan datang mencari bantuan dengan tangan kosong, jadi saya melakukan penelitian pada topik tersebut.
Saya sudah tahu bahwa ketika menggunakan LR, jika asumsi Gauss-Markov dilanggar, regresi OLS salah, dan bahwa ini terjadi ketika menggunakan data deret waktu (autokorelasi, dll). (pertanyaan lain tentang ini, satu asumsi GM adalah bahwa variabel independen harus terdistribusi secara normal? atau hanya variabel dependen yang tergantung pada yang independen?)
Saya juga tahu bahwa ketika menggunakan regresi lag terdistribusi, yang saya pikir saya usulkan di sini, dan menggunakan OLS untuk memperkirakan parameter, multikolinieritas antar variabel dapat (jelas) muncul, jadi perkiraan akan salah.
Dalam posting serupa tentang TS dan LR di sini, @IrishStat berkata:
... model regresi adalah kasus khusus dari Model Fungsi Transfer yang juga dikenal sebagai model regresi dinamis atau model XARMAX. Poin yang menonjol adalah bahwa identifikasi model dalam deret waktu yaitu perbedaan yang sesuai, keterlambatan X yang sesuai, struktur ARIMA yang sesuai, identifikasi yang sesuai dari struktur deterministik yang tidak ditentukan seperti Pulsa, Pergeseran level, Tren waktu lokal, Pulsa Musiman, dan penggabungan. perubahan parameter atau varians kesalahan harus dipertimbangkan.
(Saya juga membaca makalahnya di Autobox tentang Box Jenkins vs LR.) Tapi ini masih belum menyelesaikan pertanyaan saya (atau setidaknya itu tidak menjelaskan mekanisme RL dan TS yang berbeda untuk saya).
Jelas bahwa bahkan dengan variabel lagging masalah OLS muncul dan itu tidak efisien atau tidak benar, tetapi ketika menggunakan kemungkinan maksimum, apakah masalah ini tetap ada? Saya telah membaca bahwa ARIMA diperkirakan melalui kemungkinan maksimum, jadi jika LR dengan lag diperkirakan dengan ML dan bukan OLS, apakah ia menghasilkan koefisien "benar" (mari kita asumsikan bahwa kita juga memasukkan istilah kesalahan yang tertinggal, seperti MA pesanan q).
Singkatnya, apakah masalahnya OLS? Apakah masalah diselesaikan dengan menerapkan ML?
Jawaban:
Satu titik langsung adalah bahwa regresi linier hanya bekerja dengan variabel yang diamati sementara ARIMA menggabungkan variabel yang tidak teramati dalam bagian rata-rata bergerak; dengan demikian, ARIMA lebih fleksibel, atau lebih umum, dengan cara tertentu. Model AR dapat dilihat sebagai model regresi linier dan koefisiennya dapat diperkirakan menggunakan OLS; mana terdiri dari kelambatan dari variabel dependen yang diamati . Sementara itu, model MA atau ARMA tidak sesuai dengan kerangka kerja OLS karena beberapa variabel, yaitu istilah kesalahan yang tertinggal, tidak teramati , dan karenanya estimator OLS tidak layak.Xβ^O L S= ( X′X)- 1X′y X
Asumsi normal kadang-kadang dipanggil untuk kesalahan model, bukan untuk variabel independen. Namun, normalitas diperlukan baik untuk konsistensi dan efisiensi estimator OLS maupun untuk teorema Gauss-Markov untuk dipegang. Artikel Wikipedia tentang teorema Gauss-Markov menyatakan secara eksplisit bahwa "Kesalahan tidak harus normal".
Tingkat multikolinearitas yang tinggi berarti varians yang meningkat dari estimator OLS. Namun, penaksir OLS masih BIRU selama multikolinearitas tidak sempurna. Dengan demikian pernyataan Anda tidak terlihat benar.
Model AR dapat diestimasi menggunakan OLS dan ML; kedua metode ini memberikan penduga yang konsisten. Model MA dan ARMA tidak dapat diperkirakan oleh OLS, jadi ML adalah pilihan utama; sekali lagi, ini konsisten. Properti menarik lainnya adalah efisiensi, dan di sini saya tidak sepenuhnya yakin (tetapi jelas informasi tersebut harus tersedia di suatu tempat karena pertanyaannya cukup standar). Saya akan mencoba mengomentari "kebenaran", tetapi saya tidak yakin apa yang Anda maksud dengan itu.
sumber
Itu pertanyaan yang bagus. Perbedaan nyata antara model ARIMA dan regresi linier berganda terletak pada struktur kesalahan Anda. Anda dapat memanipulasi variabel independen dalam model regresi linier berganda sehingga cocok dengan data deret waktu Anda, itulah yang dikatakan @IrishStat. Namun, setelah itu, Anda perlu memasukkan kesalahan ARIMA ke dalam model regresi berganda untuk mendapatkan koefisien dan hasil pengujian yang benar. Buku gratis yang bagus tentang ini adalah: https://www.otexts.org/fpp/9/1 . Saya telah menghubungkan bagian yang membahas menggabungkan ARIMA dan model regresi berganda.
sumber
Pertanyaan bagus, saya sebenarnya telah membangun keduanya dalam pekerjaan sehari-hari saya sebagai Data Scientist. Model deret waktu mudah dibangun (paket prakiraan dalam R memungkinkan Anda membuatnya dalam waktu kurang dari 5 detik), sama atau lebih akurat daripada model regresi, dll. Umumnya, seseorang harus selalu membangun deret waktu, kemudian regresi. Ada implikasi filosofis dari deret waktu juga, jika Anda dapat memprediksi tanpa mengetahui apa pun, lalu apa artinya itu?
Pendapat saya tentang Darlington. 1) "Regresi jauh lebih fleksibel dan kuat, menghasilkan model yang lebih baik. Poin ini dikembangkan di banyak tempat di seluruh pekerjaan."
Tidak, justru sebaliknya. Model regresi membuat jauh lebih banyak asumsi daripada model deret waktu. Semakin sedikit asumsi, semakin besar kemungkinan kemampuan untuk menahan gempa (perubahan rezim). Selain itu, model deret waktu merespons lebih cepat terhadap perubahan mendadak.
2) "Regresi jauh lebih mudah dikuasai daripada ARIMA, setidaknya bagi mereka yang sudah terbiasa dengan penggunaan regresi di bidang lain." Ini adalah alasan yang melingkar.
3) "Regresi menggunakan algoritma komputasi" tertutup "yang pada dasarnya dijamin menghasilkan hasil jika memungkinkan, sedangkan ARIMA dan banyak metode lain menggunakan algoritme berulang yang sering gagal mencapai solusi. Saya sering melihat metode ARIMA" menutup telepon " "pada data yang memberikan metode regresi tidak ada masalah."
Regresi memberi Anda jawaban, tetapi apakah itu jawaban yang tepat? Jika saya membangun regresi linier dan model pembelajaran mesin dan mereka semua sampai pada kesimpulan yang sama, apa artinya?
Jadi secara ringkas, ya regresi dan deret waktu dapat menjawab pertanyaan yang sama dan secara teknis, deret waktu adalah regresi secara teknis (meskipun regresi-otomatis). Model deret waktu kurang kompleks dan karenanya lebih kuat dari model regresi. Jika Anda berpikir tentang spesialisasi, maka model TS berspesialisasi dalam peramalan sedangkan regresi berspesialisasi dalam pemahaman. Intinya adalah apakah Anda ingin menjelaskan atau memprediksi.
sumber
Dalam berpikir perbedaan terdalam antara fungsi transfer dan regresi linier multipe (dalam penggunaan yang biasa) terletak pada tujuannya, beberapa regresi berorientasi untuk menemukan faktor penentu utama yang dapat diamati kausal dari variabel dependen sementara fungsi transfer hanya ingin memperkirakan efek pada dependen variabel variasi variabel eksogen spesifik ... Singkatnya, regresi berganda berorientasi pada penjelasan lengkap dan fungsi transfer untuk memperkirakan efek yang sangat spesifik ...
sumber