Ekstrapolasi regresi linier pada deret waktu, di mana waktu adalah salah satu variabel independen dalam regresi. Regresi linier mungkin mendekati deret waktu dalam skala waktu singkat, dan mungkin berguna dalam analisis, tetapi memperkirakan garis lurus itu bodoh. (Waktu tidak terbatas dan terus meningkat.)
EDIT: Menanggapi pertanyaan neless101 tentang "bodoh", jawaban saya mungkin salah tetapi bagi saya tampaknya sebagian besar fenomena dunia nyata tidak bertambah atau berkurang terus menerus selamanya. Sebagian besar proses memiliki faktor pembatas: orang berhenti bertambah tinggi seiring bertambahnya usia, persediaan tidak selalu naik, populasi tidak bisa menjadi negatif, Anda tidak dapat mengisi rumah Anda dengan satu miliar anak anjing, dll. Waktu, tidak seperti kebanyakan variabel independen yang datang dalam pikiran, memiliki dukungan tak terbatas, sehingga Anda benar-benar dapat membayangkan model linier Anda memprediksi harga saham Apple 10 tahun dari sekarang karena 10 tahun dari sekarang pasti akan ada. (Padahal Anda tidak akan memperkirakan regresi tinggi-berat badan untuk memprediksi berat laki-laki dewasa setinggi 20 meter: mereka tidak dan tidak akan ada.)
Selain itu, deret waktu sering memiliki komponen siklus atau pseudo-siklus, atau komponen jalan acak. Seperti yang dikatakan IrishStat dalam jawabannya, Anda perlu mempertimbangkan musiman (kadang-kadang musiman pada berbagai skala waktu), perubahan level (yang akan melakukan hal-hal aneh pada regresi linier yang tidak memperhitungkannya), dll. Regresi linier yang mengabaikan siklus akan cocok untuk jangka pendek, tetapi sangat menyesatkan jika Anda memperkirakannya.
Tentu saja, Anda bisa mendapat masalah kapan pun Anda memperkirakan, seri waktu atau tidak. Tetapi bagi saya sepertinya kita terlalu sering melihat seseorang melemparkan serangkaian waktu (kejahatan, harga saham, dll) ke Excel, menjatuhkan PERAMALAN atau LINEST di atasnya dan memprediksi masa depan melalui dasarnya garis lurus, seolah-olah harga saham akan naik terus menerus (atau turun terus menerus, termasuk menjadi negatif).
Memperhatikan korelasi antara dua seri waktu non-stasioner. (Tidak mengherankan bahwa mereka akan memiliki koefisien korelasi yang tinggi: cari "korelasi yang tidak masuk akal" dan "kointegrasi".)
Misalnya, di Google berkorelasi, anjing dan tindikan telinga memiliki koefisien korelasi 0,84.
Untuk analisis yang lebih lama, lihat eksplorasi Yule pada 1926 tentang masalah tersebut
sumber
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
Di tingkat atas, Kolmogorov mengidentifikasi independensi sebagai asumsi utama dalam statistik - tanpa asumsi awal, banyak hasil penting dalam statistik tidak benar, baik diterapkan pada rangkaian waktu atau tugas analisis yang lebih umum.
Sampel berturut-turut atau yang berdekatan di sebagian besar sinyal waktu nyata dunia nyata tidak independen, sehingga harus berhati-hati untuk menguraikan proses menjadi model deterministik dan komponen kebisingan stokastik. Meski begitu, asumsi kenaikan independen dalam kalkulus stokastik klasik bermasalah: ingat ecel Nobel 1997, dan ledakan 1998 LTCM yang menghitung pemenang hadiah di antara para prinsipalnya (meskipun harus adil, manajer dana Merrywhether lebih cenderung untuk disalahkan daripada kuant metode).
sumber
Menjadi terlalu yakin dengan hasil model Anda karena Anda menggunakan teknik / model (seperti OLS) yang tidak memperhitungkan autokorelasi seri waktu.
Saya tidak memiliki grafik yang bagus, tetapi buku "Introductory Time Series with R" (2009, Cowpertwait, et al) memberikan penjelasan intuitif yang masuk akal: Jika ada autokorelasi positif, nilai-nilai di atas atau di bawah rata-rata akan cenderung bertahan dan dikelompokkan bersama dalam waktu. Ini mengarah pada perkiraan rata-rata yang kurang efisien, yang berarti bahwa Anda memerlukan lebih banyak data untuk memperkirakan rata-rata dengan akurasi yang sama daripada jika tidak ada autokorelasi nol. Anda secara efektif memiliki lebih sedikit data daripada yang Anda pikirkan.
Proses OLS (dan karenanya Anda) mengasumsikan bahwa tidak ada autokorelasi, jadi Anda juga mengasumsikan bahwa estimasi rata-rata lebih akurat (untuk jumlah data yang Anda miliki) daripada yang sebenarnya. Dengan demikian, Anda akhirnya menjadi lebih percaya diri dengan hasil Anda daripada seharusnya.
(Ini dapat bekerja dengan cara lain untuk autokorelasi negatif: perkiraan Anda dari rata-rata sebenarnya lebih efisien daripada yang seharusnya. Saya tidak punya apa-apa untuk membuktikan ini, tapi saya akan menyarankan bahwa korelasi positif lebih umum di sebagian besar waktu dunia nyata seri daripada korelasi negatif.)
sumber
Dampak perubahan level, pulsa musiman, dan tren waktu lokal ... di samping pulsa satu kali. Perubahan parameter dari waktu ke waktu penting untuk diselidiki / model. Kemungkinan perubahan varian kesalahan dari waktu ke waktu harus diselidiki. Bagaimana menentukan bagaimana Y dipengaruhi oleh nilai X kontemporer dan tertinggal. Bagaimana mengidentifikasi apakah nilai X di masa mendatang dapat memengaruhi nilai Y saat ini. Bagaimana mengetahui hari-hari tertentu dalam bulan tersebut berdampak. Bagaimana memodelkan masalah frekuensi campuran di mana data per jam dipengaruhi oleh nilai harian?
tidak ada yang meminta saya untuk memberikan informasi / contoh yang lebih spesifik tentang pergeseran level dan pulsa. Untuk itu saya sekarang memasukkan beberapa diskusi lagi. Serangkaian yang menunjukkan ACF menunjukkan ketidakstabilan yang berlaku memberikan "gejala". Salah satu solusi yang disarankan adalah "membedakan" data. Obat yang diabaikan adalah untuk "mengartikan" data. Jika suatu seri memiliki pergeseran tingkat "besar" dalam mean (mis. Masuk) acf dari seluruh seri ini dapat dengan mudah disalahartikan untuk menyarankan perbedaan. Saya akan menunjukkan contoh seri yang menunjukkan perubahan level. Jika saya telah menekankan (diperbesar) perbedaan antara keduanya berarti acf dari total seri akan menyarankan (salah!) Kebutuhan untuk perbedaan. Pulsa yang Tidak Diobati / Pergeseran Level / Pulsa Musiman / Tren Waktu Lokal menggembungkan varians kesalahan yang mengaburkan pentingnya struktur model dan merupakan penyebab estimasi parameter yang cacat dan perkiraan yang buruk. Sekarang ke sebuah contoh. Thadalah daftar 27 nilai bulanan. Ini adalah grafiknya . Ada empat pulsa dan 1 level shift DAN TANPA TREN! dan . Residu dari model ini menyarankan proses white noise . Beberapa paket peramalan komersial dan bahkan gratis memberikan kekonyolan sebagai akibat dari asumsi model tren dengan faktor musiman tambahan . Untuk menyimpulkan dan memparafrasakan Mark Twain. "Ada omong kosong dan ada omong kosong tapi omong kosong yang paling tidak masuk akal dari semuanya adalah omong kosong statistik!" dibandingkan dengan yang lebih masuk akal . Semoga ini membantu !
sumber
Mendefinisikan Tren sebagai pertumbuhan Linear dari waktu ke waktu.
Meskipun beberapa tren entah bagaimana linear (lihat harga saham Apple), dan meskipun bagan seri waktu tampak seperti bagan garis tempat Anda dapat menemukan regresi linier, sebagian besar tren tidak linier.
Ada Langkah perubahan seperti perubahan ketika sesuatu terjadi pada titik waktu tertentu yang mengubah perilaku ukuran ( "Jembatan runtuh dan tidak ada mobil yang melewatinya sejak itu ").
Tren populer lainnya adalah "Buzz" - pertumbuhan eksponensial dan penurunan tajam yang serupa sesudahnya ( "Kampanye pemasaran kami sukses besar, tetapi efeknya memudar setelah beberapa minggu" ).
Mengetahui model yang tepat (Regresi Logistik, dll.) Dari tren dalam deret waktu sangat penting dalam kemampuan untuk mendeteksinya dalam data deret waktu.
sumber
Selain beberapa poin hebat yang telah disebutkan, saya akan menambahkan:
Masalah-masalah ini tidak terkait dengan metode statistik yang terlibat tetapi dengan desain penelitian, yaitu data mana yang akan dimasukkan dan bagaimana mengevaluasi hasil.
Bagian yang sulit dengan poin 1. adalah memastikan bahwa kami telah mengamati periode data yang cukup untuk membuat kesimpulan tentang masa depan. Selama kuliah pertama saya tentang deret waktu, profesor menggambar kurva sinus yang panjang di papan tulis dan menunjukkan bahwa siklus panjang terlihat seperti tren linier ketika diamati melalui jendela pendek (cukup sederhana, tetapi pelajaran tetap dengan saya).
Poin 2. sangat relevan jika kesalahan model Anda memiliki beberapa implikasi praktis. Di antara bidang-bidang lain, ini banyak digunakan dalam Keuangan, tetapi saya berpendapat bahwa mengevaluasi kesalahan peramalan pada periode sebelumnya sangat masuk akal untuk semua model deret waktu di mana data memungkinkannya.
Butir 3. menyentuh lagi pada subjek yang bagian dari data masa lalu mewakili masa depan. Ini adalah topik yang kompleks dengan sejumlah besar literatur - Saya akan menyebutkan nama favorit pribadi saya: Zucchini dan MacDonald sebagai contoh.
sumber
Hindari pengurutan dalam deret waktu sampel. Jika Anda menganalisis data deret waktu yang disampel secara berkala, maka laju sampling harus dua kali frekuensi dari komponen frekuensi tertinggi dalam data yang Anda sampling. Ini adalah teori pengambilan sampel Nyquist, dan ini berlaku untuk audio digital, tetapi juga untuk setiap deret waktu sampel secara berkala. Cara untuk menghindari alias adalah menyaring semua frekuensi di atas tingkat nyquist, yang merupakan setengah dari laju sampling. Misalnya, untuk audio digital, laju sampel 48 kHz akan memerlukan filter low-pass dengan cutoff di bawah 24 kHz.
Efek aliasing dapat dilihat ketika roda tampak berputar ke belakang, karena efek strobiscopic di mana laju strobo dekat dengan laju revolusi roda. Laju lambat yang diamati adalah alias laju revolusi aktual.
sumber