Hubungan dan perbedaan antara deret waktu dan regresi?

12

Apa hubungan dan perbedaan antara deret waktu dan regresi?

Untuk model dan asumsi , apakah benar bahwa model regresi mengasumsikan independensi antara variabel output untuk nilai yang berbeda dari variabel input, sedangkan model deret waktu tidak? Apa perbedaan lainnya?

Untuk metode , dari situs web oleh Darlington

Ada sejumlah pendekatan untuk analisis deret waktu, tetapi dua yang paling dikenal adalah metode regresi dan metode Box-Jenkins (1976) atau ARIMA (AutoRegressive Integrated Moving Average). Dokumen ini memperkenalkan metode regresi. Saya menganggap metode regresi jauh lebih unggul daripada ARIMA karena tiga alasan utama

Saya tidak begitu mengerti apa "metode regresi" untuk deret waktu di situs web, dan apa bedanya dengan metode Box-Jenkins atau ARIMA. Saya menghargai jika seseorang dapat memberikan beberapa wawasan tentang pertanyaan-pertanyaan itu.

Terima kasih dan salam!

Tim
sumber
2
Sebagian besar jawaban dan komentar di sini fokus pada pertanyaan yang lebih spesifik menjelang akhir. Ini hanya sebuah bendera yang analisis deret waktunya lebih banyak, lebih banyak daripada Box-Jenkins atau ARIMA. Seluruh bidang analisis deret waktu memiliki fokus yang sangat berbeda (atau setidaknya lebih umum). Model komponen yang tidak teramati hanyalah salah satu dari beberapa contoh.
Nick Cox

Jawaban:

17

Saya benar-benar berpikir ini adalah pertanyaan yang bagus dan pantas dijawab. Tautan yang disediakan ditulis oleh seorang psikolog yang mengklaim bahwa beberapa metode buatan sendiri adalah cara yang lebih baik untuk melakukan analisis deret waktu daripada Box-Jenkins. Saya berharap bahwa usaha saya pada jawaban akan mendorong orang lain, yang lebih berpengetahuan tentang rangkaian waktu, untuk berkontribusi.

Dari perkenalannya, sepertinya Darlington memperjuangkan pendekatan pas model AR dengan kuadrat-terkecil. Yaitu, jika Anda ingin mencocokkan model ke deret waktu , Anda bisa mundur seri pada seri dengan lag , lag , dan seterusnya hingga lag , menggunakan regresi berganda biasa. Ini tentu saja diizinkan; di R, itu bahkan merupakan opsi dalam fungsi. Saya mengujinya, dan cenderung memberikan jawaban yang mirip dengan metode default untuk pemasangan model AR di R.z t z t 1 2 k

zt=α1zt1++αkztk+εt
ztzt12kar

Dia juga menganjurkan regresi pada hal-hal seperti atau kekuatan untuk menemukan tren. Sekali lagi, ini baik-baik saja. Banyak buku seri waktu membahas ini, misalnya Shumway-Stoffer dan Cowpertwait-Metcalfe. Biasanya, analisis deret waktu dapat dilanjutkan di sepanjang baris berikut: Anda menemukan tren, menghapusnya, lalu menyesuaikan model dengan residu. t tzttt

Tapi sepertinya dia juga mengadvokasi over-fitting dan kemudian menggunakan pengurangan dalam mean-squared error antara seri pas dan data sebagai bukti bahwa metodenya lebih baik. Sebagai contoh:

Saya merasa korelogram sekarang sudah usang. Tujuan utama mereka adalah untuk memungkinkan para pekerja menebak model mana yang paling cocok dengan data, tetapi kecepatan komputer modern (setidaknya dalam regresi jika tidak sesuai dengan model time-series) memungkinkan pekerja untuk hanya memasukkan beberapa model dan melihat dengan tepat bagaimana masing-masing cocok seperti yang diukur dengan mean squared error. [Masalah kapitalisasi secara kebetulan tidak relevan dengan pilihan ini, karena kedua metode ini sama-sama rentan terhadap masalah ini.]

Ini bukan ide yang baik karena tes model seharusnya seberapa baik dapat diperkirakan, bukan seberapa baik itu cocok dengan data yang ada. Dalam tiga contohnya, ia menggunakan "kesalahan akar kuadrat yang disesuaikan" sebagai kriteria untuk kualitas kecocokan. Tentu saja, pemasangan model yang berlebihan akan membuat estimasi kesalahan sampel yang lebih kecil, sehingga klaimnya bahwa modelnya "lebih baik" karena mereka memiliki RMSE yang lebih kecil salah.

Singkatnya, karena dia menggunakan kriteria yang salah untuk menilai seberapa baik model, dia mencapai kesimpulan yang salah tentang regresi vs ARIMA. Saya berani bertaruh bahwa, jika dia menguji kemampuan prediksi model sebagai gantinya, ARIMA akan keluar di atas. Mungkin seseorang dapat mencobanya jika mereka memiliki akses ke buku yang ia sebutkan di sini .

[Tambahan: untuk lebih lanjut tentang ide regresi, Anda mungkin ingin memeriksa buku seri waktu yang lebih lama yang ditulis sebelum ARIMA menjadi yang paling populer. Sebagai contoh, Kendall, Time-Series , 1973, Bab 11 memiliki seluruh bab tentang metode ini dan perbandingan dengan ARIMA.]

Flounderer
sumber
Pertanyaannya adalah apa perbedaan (inheren)?
hbaghishani
Sejauh yang saya tahu penulis tidak pernah menggambarkan metode buatan sendiri dalam publikasi peer-review dan referensi ke dan dari literatur statistik tampak minimal dan publikasi utamanya pada topik metodologi tanggal kembali ke 70-an. Sebenarnya, tidak satu pun dari ini "membuktikan" apa pun kecuali tanpa cukup waktu atau keahlian untuk mengevaluasi klaim sendiri, saya akan sangat enggan untuk menggunakannya.
Gala
@hbaghishani perbedaan substantif adalah bahwa data berkorelasi otomatis yaitu dalam setiap seri mendistorsi interpretasi lintas-korelatif. Selanjutnya Pelanggaran Gaussian misalnya rata-rata erros konstan, varians konstan dari waktu ke waktu, parameter konstan dari waktu ke waktu perlu dipertimbangkan / diperbaiki.
IrishStat
@flounderer Orang menulis buku pelajaran untuk menjualnya dan menuai hasilnya. Mereka kadang-kadang memasukkan metode anakronistik yang diajarkan secara tidak benar karena pada beberapa tanggal sebelumnya mereka dianggap benar. Untuk meningkatkan penjualan, penerbit sering menuntut (dari pengalaman pribadi saya) metodologi yang usang tetapi tidak benar karena metode ini ada dalam silabus.
IrishStat
Pemodelan @IrishStat data autokorelasi dapat dilakukan oleh model regresi dinamis. Selain itu, model lain, seperti model campuran, dapat digunakan untuk data tersebut. Jadi, saya rasa fitur ini bukan perbedaan mendasar.
hbaghishani
7

E. Parzen, mungkin agak iri karena dia tidak mengusulkan metode inovatif Box dan Jenkins, menyarankan pendekatan over-fitting ini dan kemudian mundur. Gagal karena banyak alasan (banyak yang dirangkum dengan baik oleh Flounderer), termasuk tidak mengidentifikasi dan memperbaiki Pulsa, Pergeseran Level, Pulsa Musiman, dan Tren Waktu Lokal. Selain itu, perubahan dalam parameter dari waktu ke waktu atau perubahan dalam varian kesalahan dari waktu ke waktu perlu dipertimbangkan.

Saya menulis sebuah artikel yang Anda mungkin tertarik. Ini disebut "Regresi vs Box-Jenkins" dan tersedia dari http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting / doc_download / 24-regression-vs-box-jenkins

Satu komentar tentang prosedur Darlington yang mencerminkan waktu, waktu * waktu, waktu * waktu * waktu * waktu sebagai prediktor. Dengan tidak adanya Deteksi Intervensi yang mengarah ke isolasi efek pencilan, sangat mungkin (dan salah!) Menyimpulkan kekuatan waktu yang lebih tinggi. Waspadalah terhadap non-ahli statistik yang melakukan analisis statistik karena Anda akan mewaspadai ahli statistik yang melakukan operasi otak. Dalam keadilan orang mungkin juga menambahkan waspada terhadap statistik seri / matematikawan non-waktu mencoba melakukan analisis deret waktu dengan pelatihan terbatas dalam analisis deret waktu.

Poster lain (terutama whuber) dalam daftar ini telah berulang kali memperingatkan agar tidak menggunakan "pendekatan pas" ini, sebagian besar dalam pengaturan univariat. Peringatan ini juga berlaku untuk model sebab akibat.

Semoga ini membantu.

IrishStat
sumber