Saya belum sering bekerja dengan data deret waktu, jadi saya mencari beberapa petunjuk tentang cara terbaik untuk melanjutkan dengan pertanyaan khusus ini.
Katakanlah saya memiliki data berikut - grafik di bawah ini:
Di sini ada tahun pada sumbu x. Sumbu-y adalah ukuran 'ketimpangan' misalnya bisa berupa ketimpangan pendapatan di suatu negara.
Untuk pertanyaan ini, saya tertarik untuk bertanya apakah ada sifat naik / turun ke data tahun ke tahun (karena ingin deskripsi yang lebih baik). Intinya, saya ingin bertanya apakah ketidaksetaraan naik tahun lalu dari tahun sebelumnya, apakah sekarang akan turun kembali? Ukuran naik / turun mungkin penting untuk faktor juga.
Saya berpikir bahwa sesuatu seperti wavelet analysis
atau Fourier analysis
dapat membantu, meskipun saya belum pernah menggunakan ini sebelumnya dan saya percaya bahwa ukuran sampel seperti ini terlalu kecil.
Akan tertarik dengan ide / saran untuk saya tindak lanjuti.
EDIT:
Ini adalah data untuk bagan ini:
# year value
#1 1956 0.9570912
#2 1957 1.0303563
#3 1958 0.9568302
#4 1959 1.1449074
#5 1960 0.8962963
#6 1961 1.0431552
#7 1962 0.8050077
#8 1963 0.8533181
#9 1964 0.9971713
#10 1965 1.0453083
#11 1966 0.8221328
#12 1967 1.0594876
#13 1968 1.1244195
#14 1969 1.0705498
#15 1970 0.8669457
#16 1971 0.8757319
#17 1972 1.0815189
#18 1973 1.1458959
#19 1974 1.2782848
#20 1975 1.0729718
#21 1976 1.1569416
#22 1977 1.2063673
#23 1978 1.1509700
#24 1979 1.1172020
#25 1980 1.0691429
#26 1981 1.0907407
#27 1982 1.1753854
#28 1983 0.9440187
#29 1984 1.1214175
#30 1985 1.2777778
#31 1986 1.2141739
#32 1987 0.9481722
#33 1988 1.1484652
#34 1989 0.7968458
#35 1990 1.1721074
#36 1991 1.1569523
#37 1992 0.8160300
#38 1993 0.9483291
#39 1994 1.0898612
#40 1995 0.8196819
#41 1996 1.0297017
#42 1997 1.0207769
#43 1998 0.9720285
#44 1999 0.8685848
#45 2000 0.9228595
#46 2001 0.9171540
#47 2002 1.0470085
#48 2003 0.9313437
#49 2004 1.0943982
#50 2005 1.0248419
#51 2006 0.9392917
#52 2007 0.9666248
#53 2008 1.1243693
#54 2009 0.8829184
#55 2010 0.9619517
#56 2011 1.0030864
#57 2012 1.1576998
#58 2013 0.9944945
Di sini mereka dalam R
format:
structure(list(year = structure(1:58, .Label = c("1956", "1957",
"1958", "1959", "1960", "1961", "1962", "1963", "1964", "1965",
"1966", "1967", "1968", "1969", "1970", "1971", "1972", "1973",
"1974", "1975", "1976", "1977", "1978", "1979", "1980", "1981",
"1982", "1983", "1984", "1985", "1986", "1987", "1988", "1989",
"1990", "1991", "1992", "1993", "1994", "1995", "1996", "1997",
"1998", "1999", "2000", "2001", "2002", "2003", "2004", "2005",
"2006", "2007", "2008", "2009", "2010", "2011", "2012", "2013"
), class = "factor"), value = c(0.957091237579043, 1.03035630567276,
0.956830206830207, 1.14490740740741, 0.896296296296296, 1.04315524964493,
0.805007684426229, 0.853318117977528, 0.997171336206897, 1.04530832219251,
0.822132760780104, 1.05948756976154, 1.1244195265602, 1.07054981337927,
0.866945712836124, 0.875731948296804, 1.081518931763, 1.1458958958959,
1.27828479729065, 1.07297178130511, 1.15694159981794, 1.20636732623034,
1.15097001763668, 1.11720201026986, 1.06914289768696, 1.09074074074074,
1.17538544689082, 0.944018731375053, 1.12141754850088, 1.27777777777778,
1.21417390277039, 0.948172198172198, 1.14846524606799, 0.796845829569407,
1.17210737869653, 1.15695226716732, 0.816029959161985, 0.94832907620264,
1.08986124767836, 0.819681861348528, 1.02970169141241, 1.02077687443541,
0.972028455959697, 0.868584838281808, 0.922859547859548, 0.917153996101365,
1.04700854700855, 0.931343718539713, 1.09439821062628, 1.02484191508582,
0.939291692822766, 0.966624816907303, 1.12436929683306, 0.882918437563246,
0.961951667980037, 1.00308641975309, 1.15769980506823, 0.994494494494494
)), row.names = c(NA, -58L), class = "data.frame", .Names = c("year",
"value"))
sumber
Jawaban:
Jika seri tidak berkorelasi, mengambil perbedaan yang tidak perlu akan menyuntikkan korelasi-otomatis. Bahkan jika seri ini adalah autokorelasi, perbedaan yang tidak beralasan tidak pantas. Ide-ide sederhana dan pendekatan sederhana seringkali memiliki efek samping yang tidak diinginkan. Proses identifikasi model (ARIMA) dimulai dengan seri asli dan dapat mengakibatkan perbedaan tetapi tidak boleh dimulai dengan perbedaan yang tidak beralasan kecuali ada justifikasi teoretis. Jika mau, Anda dapat memposting seri waktu singkat Anda dan saya akan menggunakannya untuk menjelaskan kepada Anda bagaimana mengidentifikasi model untuk seri ini.
Setelah menerima data:
ACF data Anda tidak pada awalnya (atau akhirnya) menunjukkan proses ARIMA di sini KEDUA ACF dan PACF
dan di sini hanya ACF:
Namun tampaknya ada dua tingkat pergeseran dalam data Anda ... satu pada 1972 dan yang lain pada 1992 .. mereka tampaknya hampir membatalkan pergeseran level. Model yang berguna mungkin juga mencakup penggabungan tiga nilai yang tidak biasa pada periode 1989,1959 dan 1983. Persamaannya kemudian
dan di sini
dengan statistik model di sini:
Aktual / Fit dan Prakiraan ada di sini dengan plot residual di sini menunjukkan kecukupan model . Ini dikonfirmasi oleh acf dari residu . Akhirnya kecocokan dan ramalan meringkas temuan .
Singkatnya seri (mungkin rasio) tanpa memori auto-regresif yang signifikan tetapi memiliki beberapa struktur deterministik terbukti (signifikan secara statistik). Semua model salah tetapi beberapa berguna (Kotak GEP).
Setelah beberapa diskusi .. Jika seseorang memodelkan perbedaan maka orang akan mendapatkan model berikut ... dengan ACTUAL / FIT dan PERAMALAN . Prakiraan terlihat sangat mirip ... koefisien MA secara efektif membatalkan operator yang membedakan.
sumber
Anda dapat melihat naik turun sebagai urutan acak, yang dihasilkan oleh beberapa proses acak. Misalnya, mari kita asumsikan bahwa Anda sedang berurusan dengan seri stasionerx1,x2,x3, . . . ,xn∈ f( x ) dimana f( x ) adalah distribusi probabilitas seperti Gaussian, Poisson atau yang lainnya. Ini adalah seri stasioner. Sekarang, Anda dapat membuat variabel baruyt seperti yang yt= 1 :xt<xt + 1 dan yt=0:xt≥xt+1 , ini adalah pasang surut Anda. Urutan baru ini akan membentuk urutan acaknya sendiri dengan properti menarik, lihat misalnya V Khil, Elena. + Msgstr "Properti Markov dari celah antara maxima lokal dalam urutan variabel acak independen." (2013).
Misalnya, lihat ACF dan PACF dari seri Anda. Tidak ada apa-apa di sini. Ini tidak tampak seperti model ARIMA. Sepertinya urutan tidak berkorelasixt .
Ini berarti bahwa kami dapat mencoba menerapkan hasil yang diketahui untukyt , mis. diketahui bahwa jarak rata-rata antara dua pasangan (atas-bawah) (atau U-putaran sebagaimana beberapa orang menyebutnya) adalah 3. Dalam data Anda atur puncak pertama (atas-bawah) adalah 1957 dan yang terakhir adalah 2012, dengan 16 puncak secara total. Jadi, jarak rata-rata antara puncak adalah 15/55 = 3,67. Kita tahu bahwaσ=1.108 , dan dengan 15 pengamatan σ15=σ/15−−√=0.29 . Jadi jarak rata-rata antara puncak ada di dalam1.2σn dari mean teoritis.
PEMBARUAN: pada siklus
Grafik dalam pertanyaan OP tampaknya menunjukkan bahwa ada semacam siklus berjalan yang panjang. Ada beberapa masalah dengan ini.
sumber
Aside 1: Satu hal yang kita lihat adalah penampilan tren siklus panjang dalam data. Ini seharusnya tidak terlalu mempengaruhi analisis tahun-ke-tahun * - jadi untuk analisis yang sangat mendasar ini saya akan mengabaikannya dan memperlakukan data seolah-olah mereka homogen selain dari efek yang Anda minati.
* (itu akan cenderung mengurangi jumlah pergerakan arah berlawanan dari apa yang Anda harapkan dengan homogenitas - jadi itu akan cenderung menurunkan kekuatan tes ini. Kita bisa mencoba mengukur dampak itu, tapi saya tidak berpikir ada kebutuhan yang kuat kecuali jika tampaknya cukup besar untuk membuat perbedaan - jika itu sudah signifikan, menyesuaikan sesuatu yang akan membuat nilai p sedikit lebih kecil akan menjadi usaha yang sia-sia.)
Selain 2: Seperti yang diungkapkan, pertanyaan Anda tampaknya melibatkan alternatif satu sisi. Saya akan bekerja atas dasar bahwa ini adalah apa yang Anda inginkan.
Mari kita mulai dengan analisis sederhana yang diarahkan langsung pada pertanyaan dasar Anda, yang tampaknya seperti "apakah peningkatan lebih mungkin diikuti oleh penurunan?"
Namun, ini tidak sesederhana yang pertama kali muncul. Dalam serangkaian stabil, dengan data murni acak, meningkat adalah lebih mungkin diikuti oleh penurunan. Perhatikan bahwa hipotesis yang kami pertimbangkan melibatkan tiga pengamatan, yang dapat dipesan dalam enam cara yang mungkin:
Dari enam cara itu, 4 melibatkan perubahan arah. Jadi seri murni acak (terlepas dari distribusi) harus melihat flip arah 2/3 dari waktu.
[Ini terkait erat dengan tes run-up-and-down, di mana Anda tertarik pada apakah ada terlalu banyak tes untuk menjadi acak. Anda bisa menggunakan tes itu sebagai gantinya.]
Saya berasumsi bahwa minat Anda yang sebenarnya adalah apakah lebih tinggi dari 2/3 acak daripada apakah lebih dari 1/2 seperti yang Anda tanyakan.
Uji statistik: proporsi pergeseran diikuti oleh pergeseran dalam arah yang berlawanan.
Karena tiga kali lipat kami tumpang tindih, saya percaya kami memiliki beberapa ketergantungan di antara tiga kali lipat, jadi kami tidak bisa memperlakukan ini sebagai binomial (kami bisa jika kami membagi data menjadi tiga kali lipat yang tidak tumpang tindih; itu akan berfungsi dengan baik).
Mempertahankan ketergantungan itu dalam pikiran, kita masih bisa menghitung distribusi statistik uji, tetapi kita tidak perlu dalam hal ini, karena proporsi yang diamati dari arah terbalik tiga kali lipat hanya di bawah jumlah yang diharapkan 2/3 untuk seri acak , dan kami hanya tertarik pada lebih banyak pembalikan dari itu.
Jadi kita tidak perlu menghitung lebih jauh - tidak ada bukti sama sekali kecenderungan untuk membalikkan (naik-turun atau turun-naik) lebih dari yang Anda dapatkan dengan seri acak.
[Saya benar-benar meragukan siklus ringan yang diabaikan akan memiliki dampak yang cukup untuk memindahkan proporsi yang diharapkan turun cukup dekat untuk ini untuk membuat perbedaan yang nyata.]
sumber
1 0 1 0 1 0 1 1 1 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 1 0 1 1 0 0 1 0 1 0 0 1 1 0 1 0 0 0 1 0 1 0 1 0 0 1 1 0 1 1 1 0
dengan 1 menunjukkan seri naik, dan 0 turun. Menggunakanruns.test
daritseries
paket R, ini memberikan statistik uji 1,81 dan p 0,07. Sementara saya tidak terlalu khawatir tentang contoh data ini, saya ingin tahu apakah ini adalah jenis analisis yang Anda maksud?Anda bisa menggunakan paket yang disebut perubahan struktural yang memeriksa kerusakan atau pergeseran level dalam data. Saya telah cukup berhasil dalam mendeteksi perubahan level untuk deret waktu non-musiman.
Saya mengubah "nilai" Anda menjadi data deret waktu. dan menggunakan kode berikut untuk memeriksa pergeseran level atau mengubah poin atau memecahkan poin. Paket ini juga memiliki fitur-fitur bagus seperti chow test untuk melakukan chow test untuk menguji kerusakan struktural:
Berikut ini adalah ringkasan dari fungsi breakpont:
Seperti yang Anda lihat fungsi mengidentifikasi kemungkinan jeda dalam data Anda dan memilih dua jeda struktural pada 1971 dan 1986 seperti yang ditunjukkan dalam plot di bawah ini berdasarkan kriteria BIC. Fungsi ini juga menyediakan titik istirahat alternatif lain seperti yang tercantum dalam output di atas.
Semoga ini bermanfaat
sumber