Perbandingan model antara model ARIMA dan model regresi

8

Saya benar-benar mengalami kesulitan mencari tahu bagaimana membandingkan model ARIMA dan regresi. Saya mengerti bagaimana mengevaluasi model ARIMA terhadap satu sama lain, dan berbagai jenis model regresi (yaitu: regresi vs regresi dinamis dengan kesalahan AR) terhadap satu sama lain, namun saya tidak dapat melihat banyak kesamaan antara model ARIMA dan metrik evaluasi model regresi.

Dua metrik yang mereka bagikan adalah SBC & AIC. Output ARIMA tidak menghasilkan angka MSE root atau statistik r ^ 2. Saya tidak terlalu yakin apakah estimasi kesalahan standar model ARIMA secara langsung setara (atau sebanding) dengan apa pun dalam output regresi.

Kalau ada yang bisa mengarahkan saya ke arah yang benar itu akan bagus, karena saya bingung di sini. Saya merasa seperti saya mencoba membandingkan apel dengan jeruk.

Saya menggunakan SAS dengan cara melakukan analisis ini.

Brett
sumber

Jawaban:

6

Jika kita mengecualikan model ARIMAX, yaitu ARIMA dengan regresi, model ARIMA dan regresi adalah model dengan pendekatan yang berbeda. ARIMA mencoba memodelkan variabel hanya dengan informasi tentang nilai lampau dari variabel yang sama. Model regresi di sisi lain memodelkan variabel dengan nilai-nilai variabel lain . Karena pendekatan ini berbeda, maka wajar jika model tidak dapat dibandingkan secara langsung.

Di sisi lain karena kedua model mencoba memodelkan satu variabel, mereka berdua menghasilkan nilai model dari variabel ini. Jadi pertanyaan perbandingan model identik dengan perbandingan nilai yang dimodelkan dengan nilai yang benar. Untuk informasi lebih lanjut bagaimana melakukannya, bab ketujuh Elemen Pembelajaran Statistik oleh Hastie et al. adalah bacaan yang mencerahkan.

Pembaruan: Perhatikan bahwa saya tidak menganjurkan membandingkan hanya dalam kecocokan sampel, hanya saja ketika model berbeda cara alami untuk membandingkan model adalah dengan membandingkan output mereka, mengabaikan bagaimana mereka diperoleh.

mpiktas
sumber
1
"Di sisi lain karena kedua model mencoba memodelkan satu variabel, mereka berdua menghasilkan nilai-nilai model dari variabel ini. Jadi pertanyaan perbandingan model identik dengan perbandingan nilai-nilai model dengan nilai-nilai sebenarnya." <--- Saya akan membandingkan MSE dari nilai-nilai yang dimodelkan dibandingkan dengan nilai-nilai sebenarnya pada bagian dari sampel data yang keluar. Sepertinya yang terbaik bagi saya untuk melakukan ini.
Brett
1

Anda bisa menggunakan MSE / AIC / BIC dari model arima dan membandingkannya dengan MSE / AIC / BIC dari model regresi. Pastikan saja bahwa jumlah nilai yang dipasang adalah sama jika tidak, Anda mungkin akan membuat kesalahan. Sebagai contoh jika model ARIMA memiliki struktur lag say sp + p (perbedaan urutan musiman sp dan struktur autoregresif urutan p, Anda kehilangan titik data sp + p pertama dan hanya nilai NOB-SP-P yang benar-benar cocok. Jika model regresi tidak memiliki kelambatan maka Anda memiliki NOB poin yang dipasang atau kurang tergantung pada spesifikasi Anda tentang nilai yang tertinggal untuk input. Jadi, kita harus menyadari bahwa MSE mungkin tidak pada nilai aktual historis yang sama. Salah satu pendekatan adalah dengan hitung MSE dari model regresi pada nilai NOB-SP-P terakhir untuk menempatkan model pada pijakan yang sama. Anda mungkin ingin GOOGLE " Sebagai penutup, biasanya tidak akan pernah cocok dengan model regresi dengan deret waktu karena mungkin informasi dalam kelambatan kausal dan kelambatan variabel dependen membenarkan STEP-UP dari regresi ke Model Fungsi Transfer alias Model ARMAX. Jika Anda tidak STEP-UP maka satu atau lebih dari Asumsi Gauusian akan batal membuat tes F / T Anda tidak berarti dan tidak menarik. Lebih jauh lagi mungkin ada pelanggaran dari kekonstanan dari istilah kesalahan yang membutuhkan penggabungan pergeseran level / tren waktu lokal dan baik variabel pulsa atau musiman untuk membuat proses kesalahan memiliki "rata-rata 0,0 di mana-mana" Sebagai penutup, biasanya tidak akan pernah cocok dengan model regresi dengan deret waktu karena mungkin informasi dalam kelambatan kausal dan kelambatan variabel dependen membenarkan STEP-UP dari regresi ke Model Fungsi Transfer alias Model ARMAX. Jika Anda tidak STEP-UP maka satu atau lebih dari Asumsi Gauusian akan batal membuat tes F / T Anda tidak berarti dan tidak menarik. Lebih jauh lagi mungkin ada pelanggaran dari kekonstanan dari istilah kesalahan yang membutuhkan penggabungan pergeseran level / tren waktu lokal dan baik variabel pulsa atau musiman untuk membuat proses kesalahan memiliki "rata-rata 0,0 di mana-mana" t LANGKAH-UP maka satu atau lebih dari Asumsi Gauus akan batal membuat tes F / T Anda tidak berarti dan tidak menarik. Lebih jauh lagi mungkin ada pelanggaran dari kekonstanan dari istilah kesalahan yang membutuhkan penggabungan pergeseran level / tren waktu lokal dan baik variabel pulsa atau musiman untuk membuat proses kesalahan memiliki "rata-rata 0,0 di mana-mana" t LANGKAH-UP maka satu atau lebih dari Asumsi Gauus akan batal membuat tes F / T Anda tidak berarti dan tidak menarik. Lebih jauh lagi mungkin ada pelanggaran dari kekonstanan dari istilah kesalahan yang membutuhkan penggabungan pergeseran level / tren waktu lokal dan baik variabel pulsa atau musiman untuk membuat proses kesalahan memiliki "rata-rata 0,0 di mana-mana"

IrishStat
sumber
3
Nilai AIC yang dilaporkan mungkin juga tidak dapat dibandingkan karena konstanta yang berbeda dihilangkan.
Rob Hyndman
1

Validasi silang mungkin akan baik di sini. Untuk melakukan ini, Anda membagi set data Anda menjadi 2 bagian. Anda menggunakan bagian pertama agar sesuai dengan kedua model, dan kemudian menggunakan model yang pas untuk memprediksi bagian kedua. Ini dapat dibenarkan sebagai pendekatan pendekatan Bayesian sepenuhnya untuk pemilihan model. Kami memiliki kemungkinan modelMi

p(d1d2...dN|MiI)=p(d1|MiI)×p(d2|d1MiI)×p(d3|d1d2MiI)×..
..×p(dN|d1d2...dN1MiI)

Yang dapat dilihat secara heuristik sebagai urutan prediksi, dan kemudian belajar dari kesalahan. Anda memprediksi titik data pertama tanpa pelatihan. Kemudian Anda memprediksi titik data kedua setelah mempelajari tentang model dengan yang pertama. Kemudian Anda memprediksi titik data ke-3 setelah menggunakan dua yang pertama untuk mempelajari tentang model, dan seterusnya. Sekarang jika Anda memiliki kumpulan data yang cukup besar, maka parameter model akan ditentukan dengan baik di luar sejumlah data tertentu, dan kami akan memiliki, untuk beberapa nilai :k

p(dk+2|d1....dkdk+1MiI)p(dk+2|d1....dkMiI)

Model tidak dapat "belajar" lagi tentang parameter, dan pada dasarnya hanya memprediksi berdasarkan pengamatan pertama . Jadi saya akan memilih (ukuran kelompok pertama) menjadi cukup besar sehingga Anda dapat secara akurat sesuai dengan model, - titik data per parameter mungkin cukup. Anda juga ingin memilih cukup besar sehingga ketergantungan pada yang sedang diabaikan tidak membuat perkiraan tidak berguna.kk2030kdk+1...dN

Maka saya hanya akan mengevaluasi kemungkinan setiap prediksi, dan mengambil rasio mereka, ditafsirkan sebagai rasio kemungkinan. Jika rasionya sekitar , maka tidak ada model yang lebih baik dari yang lain. Jika jauh dari maka ini menunjukkan salah satu model mengungguli yang lain. rasio di bawah 5 lemah, 10 kuat, 20 sangat kuat, dan 100, menentukan (timbal balik yang sesuai untuk angka kecil).11

probabilityislogic
sumber