Perangkap dalam analisis deret waktu

46

Saya baru memulai belajar mandiri dalam analisis deret waktu. Saya perhatikan ada beberapa potensi jebakan yang tidak berlaku untuk statistik umum. Jadi, membangun di atas Apa dosa statistik umum? , Saya ingin bertanya:

Apa saja kesalahan umum atau dosa statistik dalam analisis deret waktu?

Ini dimaksudkan sebagai wiki komunitas, satu konsep per jawaban, dan tolong, tidak ada pengulangan jebakan statistik yang lebih umum yang (atau harus) terdaftar di Apa dosa statistik umum?

time-series self-study sia-sia101
sumber

18

Ekstrapolasi regresi linier pada deret waktu, di mana waktu adalah salah satu variabel independen dalam regresi. Regresi linier mungkin mendekati deret waktu dalam skala waktu singkat, dan mungkin berguna dalam analisis, tetapi memperkirakan garis lurus itu bodoh. (Waktu tidak terbatas dan terus meningkat.)

EDIT: Menanggapi pertanyaan neless101 tentang "bodoh", jawaban saya mungkin salah tetapi bagi saya tampaknya sebagian besar fenomena dunia nyata tidak bertambah atau berkurang terus menerus selamanya. Sebagian besar proses memiliki faktor pembatas: orang berhenti bertambah tinggi seiring bertambahnya usia, persediaan tidak selalu naik, populasi tidak bisa menjadi negatif, Anda tidak dapat mengisi rumah Anda dengan satu miliar anak anjing, dll. Waktu, tidak seperti kebanyakan variabel independen yang datang dalam pikiran, memiliki dukungan tak terbatas, sehingga Anda benar-benar dapat membayangkan model linier Anda memprediksi harga saham Apple 10 tahun dari sekarang karena 10 tahun dari sekarang pasti akan ada. (Padahal Anda tidak akan memperkirakan regresi tinggi-berat badan untuk memprediksi berat laki-laki dewasa setinggi 20 meter: mereka tidak dan tidak akan ada.)

Selain itu, deret waktu sering memiliki komponen siklus atau pseudo-siklus, atau komponen jalan acak. Seperti yang dikatakan IrishStat dalam jawabannya, Anda perlu mempertimbangkan musiman (kadang-kadang musiman pada berbagai skala waktu), perubahan level (yang akan melakukan hal-hal aneh pada regresi linier yang tidak memperhitungkannya), dll. Regresi linier yang mengabaikan siklus akan cocok untuk jangka pendek, tetapi sangat menyesatkan jika Anda memperkirakannya.

Tentu saja, Anda bisa mendapat masalah kapan pun Anda memperkirakan, seri waktu atau tidak. Tetapi bagi saya sepertinya kita terlalu sering melihat seseorang melemparkan serangkaian waktu (kejahatan, harga saham, dll) ke Excel, menjatuhkan PERAMALAN atau LINEST di atasnya dan memprediksi masa depan melalui dasarnya garis lurus, seolah-olah harga saham akan naik terus menerus (atau turun terus menerus, termasuk menjadi negatif).

Wayne
sumber

Bisakah Anda memperluas mengapa itu bodoh?

naught101

1

+1 untuk contoh luar biasa. Saya menghitung dengan tepat berapa banyak anak anjing yang dapat saya muat di rumah saya sekarang: D

naught101

3

Ini adalah ilustrasi yang bagus untuk poin Anda: xkcd.com/605

Zach

1

@naught Mark Twain melakukan pekerjaan besar yang menunjukkan, dalam bahasa yang paling sederhana, mengapa "bodoh" cocok untuk ekstrapolasi linear dari serangkaian waktu.

whuber

Dan ini: stats.stackexchange.com/a/13904/9007 ... Poin serupa adalah ekstrapolasi tren polinomial (terutama tingkat tinggi), atau model lain yang tidak memiliki relevansi fisik. Saya menulis posting blog tentang mengapa ini adalah ide yang buruk , ketika saya mengajar diri sendiri oktaf.

naught101

13

Memperhatikan korelasi antara dua seri waktu non-stasioner. (Tidak mengherankan bahwa mereka akan memiliki koefisien korelasi yang tinggi: cari "korelasi yang tidak masuk akal" dan "kointegrasi".)

Misalnya, di Google berkorelasi, anjing dan tindikan telinga memiliki koefisien korelasi 0,84.

Untuk analisis yang lebih lama, lihat eksplorasi Yule pada 1926 tentang masalah tersebut

Wayne
sumber

Tentu tidak selalu. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

naught101

@Wayne Terima kasih banyak untuk kertas Yule. Saya telah mengutip ini sejak tahun 1970 dan belum pernah benar-benar membacanya. Ini dikenal di beberapa kalangan, tampaknya kecil.

IrishStat

7

Di tingkat atas, Kolmogorov mengidentifikasi independensi sebagai asumsi utama dalam statistik - tanpa asumsi awal, banyak hasil penting dalam statistik tidak benar, baik diterapkan pada rangkaian waktu atau tugas analisis yang lebih umum.

Sampel berturut-turut atau yang berdekatan di sebagian besar sinyal waktu nyata dunia nyata tidak independen, sehingga harus berhati-hati untuk menguraikan proses menjadi model deterministik dan komponen kebisingan stokastik. Meski begitu, asumsi kenaikan independen dalam kalkulus stokastik klasik bermasalah: ingat ecel Nobel 1997, dan ledakan 1998 LTCM yang menghitung pemenang hadiah di antara para prinsipalnya (meskipun harus adil, manajer dana Merrywhether lebih cenderung untuk disalahkan daripada kuant metode).

alancalvitti
sumber

"analisis deret waktu" sebagai bidang studi. Pada dasarnya yang saya maksud adalah hal apa pun yang mungkin membuat seseorang baru untuk mempelajari deret waktu (dari jenis apa pun, dan jenis analisis apa pun). Saya tidak mencari jawaban yang komprehensif. Periksa pertanyaan yang saya rujuk dalam pertanyaan saya untuk merasakan apa yang saya coba lakukan di sini.

naught101

Maksud saya jenis analisis apa

alancalvitti

Aku tahu. Saya pikir Anda melewatkan inti pertanyaan. Jangan ragu untuk mengomentari batu sandungan umum dalam analisis jenis apa pun , dari jenis masalah deret waktu apa pun yang pernah Anda alami. Simpan saja untuk masalah yang spesifik untuk deret waktu.

naught101

Hei @alancalvitti, contoh ekonomi itu terdengar menarik. Apakah Anda tahu deskripsi yang baik yang bisa kami tautkan dari sini?

naught101

Saya mengedit jawaban ini untuk mengupasnya kembali ke poin utama yang disajikan (untuk membawanya kembali ke gaya satu poin per jawaban). Itu berarti menghapus hal-hal tentang analisis spektral. Mungkin ada sesuatu yang bisa dikatakan tentang hal itu dalam jawaban yang terpisah (meskipun tampaknya bukan tentang jebakan, khususnya, mungkin ada jebakan terkait spektral-analisis yang dapat kita catat di sini). Diskusi di atas sekarang tidak masuk akal, tetapi Anda mengerti, saya kira: /

naught101

2

Menjadi terlalu yakin dengan hasil model Anda karena Anda menggunakan teknik / model (seperti OLS) yang tidak memperhitungkan autokorelasi seri waktu.

Saya tidak memiliki grafik yang bagus, tetapi buku "Introductory Time Series with R" (2009, Cowpertwait, et al) memberikan penjelasan intuitif yang masuk akal: Jika ada autokorelasi positif, nilai-nilai di atas atau di bawah rata-rata akan cenderung bertahan dan dikelompokkan bersama dalam waktu. Ini mengarah pada perkiraan rata-rata yang kurang efisien, yang berarti bahwa Anda memerlukan lebih banyak data untuk memperkirakan rata-rata dengan akurasi yang sama daripada jika tidak ada autokorelasi nol. Anda secara efektif memiliki lebih sedikit data daripada yang Anda pikirkan.

Proses OLS (dan karenanya Anda) mengasumsikan bahwa tidak ada autokorelasi, jadi Anda juga mengasumsikan bahwa estimasi rata-rata lebih akurat (untuk jumlah data yang Anda miliki) daripada yang sebenarnya. Dengan demikian, Anda akhirnya menjadi lebih percaya diri dengan hasil Anda daripada seharusnya.

(Ini dapat bekerja dengan cara lain untuk autokorelasi negatif: perkiraan Anda dari rata-rata sebenarnya lebih efisien daripada yang seharusnya. Saya tidak punya apa-apa untuk membuktikan ini, tapi saya akan menyarankan bahwa korelasi positif lebih umum di sebagian besar waktu dunia nyata seri daripada korelasi negatif.)

Wayne
sumber

Sebuah contoh di sini akan menjadi luar biasa, saya tidak sepenuhnya mengerti jawabannya sebagaimana

mestinya

Terima kasih untuk edit @Wayne, tapi saya agak bermaksud contoh dunia nyata, lebih disukai dengan beberapa visualisasi. Jelas, orang lain dapat menambahkan itu juga - ini adalah wiki komunitas.

naught101

1

@ naught101: Ah. Dua dari tiga saran saya yang saya buat di sini didasarkan pada apa yang telah saya pelajari, tetapi tidak cukup baik untuk dijadikan contoh yang baik. Saya akan mencoba mencarinya di web.

Wayne

Ini hanya data simulasi, tetapi jawaban saya untuk pertanyaan lain memiliki beberapa kode R dengan model yang sesuai dengan OLS dan kemudian lebih tepat memperhitungkan autokorelasi - dengan nilai-p yang jauh lebih tinggi. stats.stackexchange.com/questions/27254/…

Peter Ellis

2

Dampak perubahan level, pulsa musiman, dan tren waktu lokal ... di samping pulsa satu kali. Perubahan parameter dari waktu ke waktu penting untuk diselidiki / model. Kemungkinan perubahan varian kesalahan dari waktu ke waktu harus diselidiki. Bagaimana menentukan bagaimana Y dipengaruhi oleh nilai X kontemporer dan tertinggal. Bagaimana mengidentifikasi apakah nilai X di masa mendatang dapat memengaruhi nilai Y saat ini. Bagaimana mengetahui hari-hari tertentu dalam bulan tersebut berdampak. Bagaimana memodelkan masalah frekuensi campuran di mana data per jam dipengaruhi oleh nilai harian?

tidak ada yang meminta saya untuk memberikan informasi / contoh yang lebih spesifik tentang pergeseran level dan pulsa. Untuk itu saya sekarang memasukkan beberapa diskusi lagi. Serangkaian yang menunjukkan ACF menunjukkan ketidakstabilan yang berlaku memberikan "gejala". Salah satu solusi yang disarankan adalah "membedakan" data. Obat yang diabaikan adalah untuk "mengartikan" data. Jika suatu seri memiliki pergeseran tingkat "besar" dalam mean (mis. Masuk) acf dari seluruh seri ini dapat dengan mudah disalahartikan untuk menyarankan perbedaan. Saya akan menunjukkan contoh seri yang menunjukkan perubahan level. Jika saya telah menekankan (diperbesar) perbedaan antara keduanya berarti acf dari total seri akan menyarankan (salah!) Kebutuhan untuk perbedaan. Pulsa yang Tidak Diobati / Pergeseran Level / Pulsa Musiman / Tren Waktu Lokal menggembungkan varians kesalahan yang mengaburkan pentingnya struktur model dan merupakan penyebab estimasi parameter yang cacat dan perkiraan yang buruk. Sekarang ke sebuah contoh. Th masukkan deskripsi gambar di sini adalah daftar 27 nilai bulanan. Ini adalah grafiknya . Ada empat pulsa dan 1 level shift DAN TANPA TREN! dan . Residu dari model ini menyarankan proses white noise . Beberapa paket peramalan komersial dan bahkan gratis memberikan kekonyolan sebagai akibat dari asumsi model tren dengan faktor musiman tambahan masukkan deskripsi gambar di sini . Untuk menyimpulkan dan memparafrasakan Mark Twain. "Ada omong kosong dan ada omong kosong tapi omong kosong yang paling tidak masuk akal dari semuanya adalah omong kosong statistik!" dibandingkan dengan yang lebih masuk akal . Semoga ini membantu !

IrishStat
sumber

1

Benarkah? Ini semua adalah jebakan dan dosa ? (Bacalah kembali bagian yang ditekankan dari pertanyaan!) Mungkin maksud Anda kebalikan dari apa yang Anda tulis?

whuber

Maksud dari komentar saya adalah untuk menunjukkan jebakan dari tidak menghibur atau mempertimbangkan beberapa struktur dunia nyata yang mungkin. Orang perlu menghindari asumsi yang tidak divalidasi secara wajar jika tidak, orang mungkin mendapatkan beberapa hasil yang sangat dipertanyakan.

IrishStat

3

Saya tahu itu tujuannya, tetapi dalam bentuknya yang sekarang, balasan Anda mudah disalahpahami. Misalnya, apakah itu dosa untuk menilai "dampak" dari "pulsa satu kali" atau apakah itu dosa untuk tidak melakukan itu? Ini cukup samar bahwa kasus yang baik dapat dibuat untuk interpretasi yang baik! (Ya, itu dosa, karena pulsa satu kali mungkin hanya outlier yang Anda tidak ingin memberikan pengaruh yang tidak semestinya dan memperhitungkannya semua bisa terlalu mengukur model; tidak, mereka perlu dimasukkan karena efeknya mungkin berlama-lama untuk waktu yang lama dan pengabaian yang bisa membuat estimasi parameter lainnya bias.)

whuber

@whuber Jika efek dari pulsa satu kali bertahan ini bisa dimodelkan sebagai urutan pulsa satu kali pada titik-titik berikutnya. Ini tidak seanggun mungkin tetapi tetap efektif. Seperti yang Anda katakan dengan benar, Anda tidak ingin memiliki nilai yang salah mendistorsi estimasi parameter dari struktur berulang sehingga merupakan "dosa" untuk tidak memperlakukan struktur deterministik yang tidak ditentukan seperti pulsa, pergeseran level, pulsa musiman dan / atau tren waktu lokal.

IrishStat

Saya pikir ini akan menjadi jawaban yang sangat menarik jika kalimat pertama (level shift dan pulse) diperluas dengan sangat (dengan beberapa contoh), dan sisanya dijatuhkan. Heteroskedastisitas akan menjadi jawaban terpisah yang bagus.

naught101

1

Mendefinisikan Tren sebagai pertumbuhan Linear dari waktu ke waktu.

Meskipun beberapa tren entah bagaimana linear (lihat harga saham Apple), dan meskipun bagan seri waktu tampak seperti bagan garis tempat Anda dapat menemukan regresi linier, sebagian besar tren tidak linier.

Ada Langkah perubahan seperti perubahan ketika sesuatu terjadi pada titik waktu tertentu yang mengubah perilaku ukuran ( "Jembatan runtuh dan tidak ada mobil yang melewatinya sejak itu ").

Tren populer lainnya adalah "Buzz" - pertumbuhan eksponensial dan penurunan tajam yang serupa sesudahnya ( "Kampanye pemasaran kami sukses besar, tetapi efeknya memudar setelah beberapa minggu" ).

Mengetahui model yang tepat (Regresi Logistik, dll.) Dari tren dalam deret waktu sangat penting dalam kemampuan untuk mendeteksinya dalam data deret waktu.

Orang
sumber

1

Selain beberapa poin hebat yang telah disebutkan, saya akan menambahkan:

Gagal menemukan siklus panjang atau musiman - dengan memeriksa hanya data selama periode 'tidak cukup lama'
Kegagalan untuk mengevaluasi kesalahan peramalan untuk periode terakhir ( pengujian ulang )
Kegagalan untuk mendeteksi dan menangani perubahan rezim

Masalah-masalah ini tidak terkait dengan metode statistik yang terlibat tetapi dengan desain penelitian, yaitu data mana yang akan dimasukkan dan bagaimana mengevaluasi hasil.

Bagian yang sulit dengan poin 1. adalah memastikan bahwa kami telah mengamati periode data yang cukup untuk membuat kesimpulan tentang masa depan. Selama kuliah pertama saya tentang deret waktu, profesor menggambar kurva sinus yang panjang di papan tulis dan menunjukkan bahwa siklus panjang terlihat seperti tren linier ketika diamati melalui jendela pendek (cukup sederhana, tetapi pelajaran tetap dengan saya).

Poin 2. sangat relevan jika kesalahan model Anda memiliki beberapa implikasi praktis. Di antara bidang-bidang lain, ini banyak digunakan dalam Keuangan, tetapi saya berpendapat bahwa mengevaluasi kesalahan peramalan pada periode sebelumnya sangat masuk akal untuk semua model deret waktu di mana data memungkinkannya.

Butir 3. menyentuh lagi pada subjek yang bagian dari data masa lalu mewakili masa depan. Ini adalah topik yang kompleks dengan sejumlah besar literatur - Saya akan menyebutkan nama favorit pribadi saya: Zucchini dan MacDonald sebagai contoh.

berarti-untuk-makna
sumber

1

Hindari pengurutan dalam deret waktu sampel. Jika Anda menganalisis data deret waktu yang disampel secara berkala, maka laju sampling harus dua kali frekuensi dari komponen frekuensi tertinggi dalam data yang Anda sampling. Ini adalah teori pengambilan sampel Nyquist, dan ini berlaku untuk audio digital, tetapi juga untuk setiap deret waktu sampel secara berkala. Cara untuk menghindari alias adalah menyaring semua frekuensi di atas tingkat nyquist, yang merupakan setengah dari laju sampling. Misalnya, untuk audio digital, laju sampel 48 kHz akan memerlukan filter low-pass dengan cutoff di bawah 24 kHz.
Efek aliasing dapat dilihat ketika roda tampak berputar ke belakang, karena efek strobiscopic di mana laju strobo dekat dengan laju revolusi roda. Laju lambat yang diamati adalah alias laju revolusi aktual.

marty
sumber

Perangkap dalam analisis deret waktu

Jawaban: