Saya mengerti bahwa deret waktu stasioner adalah deretan mean dan varians yang konstan dari waktu ke waktu. Adakah yang bisa menjelaskan mengapa kita harus memastikan set data kita stasioner sebelum kita dapat menjalankan model ARIMA atau ARM yang berbeda? Apakah ini juga berlaku untuk model regresi normal di mana autokorelasi dan / atau waktu bukan merupakan faktor?
92
Jawaban:
Stasioneritas adalah satu jenis struktur ketergantungan.
Misalkan kita memiliki data . Asumsi paling dasar adalah bahwa independen, yaitu kita memiliki sampel. Independensi adalah properti yang bagus, karena menggunakannya kita dapat memperoleh banyak hasil yang bermanfaat. Masalahnya adalah bahwa kadang-kadang (atau sering, tergantung pada tampilan) properti ini tidak berlaku.X iX1,...,Xn Xi
Sekarang independensi adalah properti yang unik, dua variabel acak dapat independen hanya dalam satu cara, tetapi mereka dapat bergantung dalam berbagai cara. Jadi stasioneritas adalah salah satu cara pemodelan struktur ketergantungan. Ternyata banyak hasil bagus yang berlaku untuk variabel acak independen (hukum jumlah besar, teorema batas pusat untuk beberapa nama) berlaku untuk variabel acak stasioner (kita harus secara tegas mengatakan urutan). Dan tentu saja ternyata banyak data dapat dianggap stasioner, sehingga konsep stasioneritas sangat penting dalam pemodelan data non-independen.
Ketika kami telah menentukan bahwa kami memiliki stasioneritas, tentu saja kami ingin memodelkannya. Di sinilah model ARMA masuk. Ternyata setiap data stasioner dapat didekati dengan model ARMA stasioner, berkat teorema dekomposisi Wold . Jadi itu sebabnya model ARMA sangat populer dan itulah mengapa kita perlu memastikan bahwa seri ini stasioner untuk menggunakan model ini.
Sekarang lagi cerita yang sama berlaku dengan independensi dan ketergantungan. Stasioneritas didefinisikan secara unik, yaitu data stasioner atau tidak, jadi hanya ada cara agar data stasioner, tetapi banyak cara agar stasioner tidak stasioner. Lagi-lagi ternyata banyak data menjadi diam setelah transformasi tertentu. Model ARIMA adalah salah satu model untuk non-stasioneritas. Diasumsikan bahwa data menjadi diam setelah dibedakan.
Dalam konteks regresi, stasioneritas penting karena hasil yang sama yang berlaku untuk data independen berlaku jika data itu stasioner.
sumber
Jumlah apa yang biasanya kita minati ketika kita melakukan analisis statistik pada rangkaian waktu? Kami ingin tahu
Bagaimana kita menghitung hal-hal ini? Menggunakan mean di berbagai periode waktu.
Mean di banyak periode waktu hanya informatif jika nilai yang diharapkan sama di periode-periode waktu itu. Jika parameter populasi ini dapat bervariasi, apa yang sebenarnya kita perkirakan dengan mengambil rata-rata antar waktu?
Stasioner (lemah) mensyaratkan bahwa jumlah populasi ini harus sama sepanjang waktu, menjadikan rata-rata sampel cara yang masuk akal untuk memperkirakannya.
Selain itu, proses stasioner menghindari masalah regresi palsu .
sumber
Gagasan mendasar dalam pembelajaran statistik adalah Anda dapat belajar dengan mengulang percobaan. Sebagai contoh, kita dapat terus membalik paku payung untuk mempelajari probabilitas bahwa paku payung mendarat di kepalanya.
Dalam konteks time-series, kami mengamati satu kali proses stokastik dan bukan proses proses stokastik berulang. Kami mengamati 1 percobaan panjang daripada beberapa percobaan independen.
Kita membutuhkan stasioneritas dan ergodisitas sehingga mengamati proses stokastik jangka panjang sama dengan mengamati banyak proses independen proses stokastik.
Beberapa definisi (tidak tepat)
Biarkan menjadi ruang sampel. Proses stokastik adalah fungsi dari kedua waktu dan hasil .Ω {Yt} t∈{1,2,3,…} ω∈Ω
Masalah mendasar dalam deret waktu
Dalam Statistik 101, kami diajarkan tentang serangkaian variabel independen dan terdistribusi secara identik , , dll ... Kami mengamati beberapa, percobaan identik mana sebuah secara acak dipilih dan ini memungkinkan kita untuk belajar tentang variabel acak . Menurut Hukum Angka Besar , kita memiliki konvergen hampir pasti ke .X1 X2 X3 i=1,…,n ωi∈Ω X 1n∑ni=1Xi E[X]
Perbedaan mendasar dalam pengaturan time-series adalah bahwa kita sedang mengamati beberapa pengamatan dari waktu ke waktu daripada beberapa menarik dari .t Ω
Dalam kasus umum, mungkin tidak bertemu dengan apa pun!1T∑Tt=1Yt
Untuk pengamatan berulang dari waktu ke waktu untuk menyelesaikan tugas yang sama dengan banyak penarikan dari ruang sampel , kita membutuhkan stasioneritas dan ergodisitas .
Jika mean tanpa syarat ada dan kondisi untuk teorema ergodik terpenuhi, time-series, sampel mean akan menyatu ke mean tanpa syarat .E[Y] 1T∑Tt=1Yt E[Y]
Contoh 1: kegagalan stasioneritas
Biarkan menjadi proses degenerasi . Kita dapat melihat bahwa bukan stasioner (distribusi bersama bukan invarian waktu).{Yt} Yt=t {Yt}
Biarkan menjadi mean sampel deret waktu, dan jelas bahwa tidak konvergen ke apa pun seperti : . Rata-rata tidak ada dan tidak konvergen ke apa pun sebagai .St=1t∑ti=1Yi St t→∞ S1=1,S2=32,S3=2,…,St=t+12 Yt St t→∞
Contoh: kegagalan ergodisitas
Biarkan menjadi hasil dari flip koin tunggal. Biarkan untuk semua , yaitu, atau .X Yt=X t {Yt}=(0,0,0,0,0,0,0,…) {Yt}=(1,1,1,1,1,1,1,…
Meskipun , sampel time-series berarti tidak akan memberikan Anda rata-rata .E[Yt]=12 St=1t∑ti=1Yi Yt
sumber
Untuk menambahkan jawaban tingkat tinggi ke beberapa jawaban lain yang baik tetapi lebih rinci, stasioneritas penting karena, jika tidak ada, model yang menggambarkan data akan bervariasi dalam akurasi pada titik waktu yang berbeda. Dengan demikian, stasioneritas diperlukan untuk statistik sampel seperti sarana, varian, dan korelasi untuk menggambarkan data secara akurat di semua titik waktu yang menarik.
Melihat plot time series di bawah ini, Anda (mudah-mudahan) dapat melihat bagaimana mean dan varians dari segmen waktu tertentu akan melakukan pekerjaan dengan baik yang mewakili seluruh time series stasioner tetapi pekerjaan yang relatif buruk mewakili seluruh time series non-stasioner. Misalnya, rata-rata deret waktu non-stasioner jauh lebih rendah dari dan variansnya jauh lebih tinggi dalam kisaran ini daripada di kisaran dari .200 < t < 400600<t<800 200<t<400
sumber
Namun, kita sering mencari stasioneritas. Mengapa?
Pertimbangkan masalah perkiraan. Bagaimana perkiraan Anda? Jika semuanya berbeda besok maka tidak mungkin untuk diramalkan, karena semuanya akan berbeda. Jadi kunci untuk peramalan adalah untuk menemukan sesuatu yang akan menjadi besok sama, dan memperluas bahwa untuk besok. Itu sesuatu yang bisa apa saja. Saya akan memberi Anda beberapa contoh.
Untuk peramalan, kami benar-benar perlu menemukan komponen konstan (invarian waktu) dalam seri, jika tidak, tidak mungkin untuk meramalkan berdasarkan definisi. Stasioneritas hanyalah kasus khusus dari invarian.
sumber
Karena sebagian besar ARIMA mengalami kemunduran pada dirinya sendiri, ia menggunakan jenis regresi berganda yang diinduksi sendiri yang akan secara tidak perlu dipengaruhi oleh tren yang kuat atau musiman. Teknik regresi berganda ini didasarkan pada nilai-nilai deret waktu sebelumnya, terutama yang dalam periode-periode terakhir, dan memungkinkan kita untuk mengekstraksi "antar-hubungan" yang sangat menarik antara beberapa nilai masa lalu yang berfungsi menjelaskan nilai masa depan.
sumber
Gagasan stasioneritas model ARMA terkait erat dengan gagasan invertibilitas.
Pertimbangkan model bentuk . Model ini eksplosif karena polinomial berakar di dalam lingkaran unit dan dengan demikian melanggar persyaratan. Model yang memiliki akar di dalam lingkaran unit berarti bahwa "data lama" lebih penting daripada "data baru" yang tentu saja tidak masuk akal.( 1 - 1.1 B )y(t)=1.1y(t−1) (1−1.1B)
sumber
ARMA dan ARIMA dibangun dengan asumsi bahwa seri ini stasioner. Jika seri tidak maka prediksi akan salah.
Statistik sampel - mean, varians, co variance - berguna sebagai deskriptor perilaku masa depan hanya jika seri itu diam. Sebagai contoh, jika seri meningkat secara konsisten dari waktu ke waktu, mean dan varians sampel akan tumbuh dengan ukuran sampel dan mereka akan selalu meremehkan mean dan varians di periode mendatang. Penting untuk berhati-hati ketika mencoba memperkirakan model regresi yang sesuai dengan data yang tidak stasioner.
sumber
Dalam pandangan saya proses stokastik adalah proses yang diatur oleh tiga sifat statistik yang harus berbeda waktu. Mereka adalah varian rata-rata dan fungsi korelasi otomatis. Walaupun dua yang pertama tidak memberi tahu apa-apa tentang evolusi proses dalam waktu, jadi sifat ketiga yang merupakan fungsi auto-korelasi harus dipertimbangkan yang memberi tahu seseorang bahwa bagaimana ketergantungan membusuk seiring berjalannya waktu (lag).
sumber
Untuk memecahkan apa pun kita perlu memodelkan persamaan secara matematis menggunakan statika.
Selama proses konversi, kita akan mendapatkan tren dan musiman
sumber