Saya memiliki 2 time-series (keduanya mulus) yang saya ingin berkorelasi silang untuk melihat bagaimana mereka berkorelasi.
Saya bermaksud menggunakan koefisien korelasi Pearson. Apakah ini tepat?
Pertanyaan kedua saya adalah saya dapat memilih untuk mencicipi 2 seri-waktu sebaik yang saya suka. yaitu saya dapat memilih berapa banyak poin data yang akan saya berikan kepada kami. Apakah ini akan mempengaruhi koefisien korelasi yaitu output? Apakah saya perlu memperhitungkan ini?
Untuk tujuan ilustrasi
option(i)
[1, 4, 7, 10] & [6, 9, 6, 9, 6]
option(ii)
[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]
time-series
correlation
pearson-r
smoothing
pengguna1551817
sumber
sumber
Jawaban:
Korelasi Pearson yang digunakan untuk melihat korelasi antara seri ... tetapi menjadi time series korelasi yang memandang seluruh kelambanan yang berbeda - fungsi korelasi silang .
Korelasi silang dipengaruhi oleh ketergantungan dalam-seri, jadi dalam banyak kasus ketergantungan dalam-seri harus dihilangkan terlebih dahulu. Jadi untuk menggunakan korelasi ini, daripada merapikan seri, sebenarnya lebih umum (karena bermakna) untuk melihat ketergantungan antara residu - bagian kasar yang tersisa setelah model yang sesuai ditemukan untuk variabel.
Anda mungkin ingin memulai dengan beberapa sumber daya dasar pada model deret waktu sebelum mempelajari untuk mencoba mencari tahu apakah korelasi Pearson di (mungkin) seri nonstasioner, yang dihaluskan dapat ditafsirkan.
Secara khusus, Anda mungkin ingin melihat fenomena di sini . [Dalam deret waktu ini kadang-kadang disebut korelasi palsu , meskipun artikel Wikipedia tentang korelasi palsu mengambil pandangan sempit tentang penggunaan istilah dengan cara yang tampaknya mengecualikan penggunaan istilah ini. Anda mungkin akan menemukan lebih banyak tentang masalah yang dibahas di sini dengan mencari regresi palsu sebagai gantinya.]
[Sunting - lanskap Wikipedia terus berubah; para para di atas. mungkin harus direvisi untuk mencerminkan apa yang ada di sana sekarang.]
mis. lihat beberapa diskusi
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (kutipan pembuka Yule, dalam makalah yang disajikan pada tahun 1925 tetapi diterbitkan pada tahun berikutnya, merangkum masalah dengan cukup baik)
Christos Agiakloglou dan Apostolos Tsimpanos, Spurious Correlations for Stationary AR (1) Memproses http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (ini menunjukkan bahwa Anda bahkan bisa mendapatkan masalah antara seri stasioner; maka kecenderungan untuk prewhiten)
Referensi klasik Yule, (1926) [1] disebutkan di atas.
Anda juga dapat menemukan diskusi di sini bermanfaat, serta diskusi di sini
-
Menggunakan korelasi Pearson dalam cara yang bermakna antara deret waktu itu sulit dan terkadang mengejutkan.
Perhatikan komentar saya sebelumnya tentang penggunaan sempit istilah korelasi palsu dalam artikel Wikipedia.
Poin tentang korelasi palsu adalah bahwa seri dapat tampak berkorelasi, tetapi korelasi itu sendiri tidak bermakna. Anggap dua orang melemparkan dua koin berbeda dengan menghitung jumlah kepala sejauh ini dikurangi jumlah ekor sejauh nilai seri mereka.
(Jadi jika orang 1 melemparkan mereka memiliki 3-1 = 2 untuk nilai pada langkah waktu ke-4, dan seri mereka berjalan )HTHH ... 1 , 0 , 1 , 2 , . . .
Jelas tidak ada hubungan apa pun antara kedua seri. Jelas tidak ada yang bisa memberi tahu Anda hal pertama tentang yang lain!
Tetapi lihat jenis korelasi yang Anda dapatkan di antara pasangan koin:
Jika saya tidak memberi tahu Anda apa itu, dan Anda mengambil sendiri sepasang seri itu, itu akan menjadi korelasi yang mengesankan bukan?
Tapi semuanya tidak ada artinya . Benar-benar palsu. Tidak satu pun dari tiga pasangan yang benar-benar lebih positif atau negatif terkait satu sama lain daripada yang lain - hanya suara yang terakumulasi . The spuriousness bukan hanya tentang prediksi, seluruh gagasan dari mempertimbangkan hubungan antara seri tanpa memperhitungkan dalam seri ketergantungan salah tempat.
Yang Anda miliki di sini adalah ketergantungan seri . Tidak ada hubungan lintas seri yang sebenarnya.
Setelah Anda menangani dengan benar masalah yang membuat seri ini bergantung secara otomatis - semuanya terintegrasi ( Bernoulli random walks ), jadi Anda perlu membedakannya - asosiasi "nyata" menghilang (korelasi lintas-seri absolut terbesar dari ketiganya adalah 0,048).
Apa yang memberitahu Anda adalah kebenaran - hubungan yang tampak hanyalah ilusi yang disebabkan oleh ketergantungan dalam rangkaian.
Pertanyaan Anda bertanya "bagaimana cara menggunakan korelasi Pearson dengan benar dengan deret waktu" - jadi harap dipahami: jika ada ketergantungan dalam-deret dan Anda tidak mengatasinya terlebih dahulu, Anda tidak akan menggunakannya dengan benar.
Selanjutnya, smoothing tidak akan mengurangi masalah ketergantungan serial; justru sebaliknya - itu membuatnya lebih buruk! Berikut adalah korelasi setelah smoothing (default loess smooth - of series vs index - dilakukan dalam R):
Mereka semua mendapatkan lebih jauh dari 0. Mereka semua masih tidak lain hanyalah suara yang tidak berarti , meskipun sekarang sudah dihaluskan, suara yang terakumulasi. (Dengan menghaluskan, kami mengurangi variabilitas dalam seri yang kami masukkan ke dalam perhitungan korelasi, sehingga mungkin itulah mengapa korelasinya naik.)
[1]: Yule, GU (1926) "Mengapa kita Terkadang mendapatkan Korelasi Omong kosong antara Time-Series?" J.Roy.Stat.Soc. , 89 , 1 , hlm. 1-63
sumber
Juga, bayangkan dua deret waktu sangat tergantung, katakanlah bergerak naik dan turun bersama, tetapi satu mengalami variasi yang kuat dan yang lainnya memiliki variasi yang selalu ringan, korelasi Pearson Anda akan agak rendah tidak seperti yang Spearman dan Kendall (yang adalah perkiraan ketergantungan yang lebih baik antara rangkaian waktu Anda).
Untuk perawatan menyeluruh tentang hal ini dan pemahaman yang lebih baik tentang ketergantungan, Anda dapat melihat Teori Copula , dan untuk aplikasi deret waktu .
sumber
Data deret waktu biasanya tergantung pada waktu. Namun korelasi Pearson sesuai untuk data independen. Masalah ini mirip dengan yang disebut regresi palsu. Koefisien cenderung sangat signifikan tetapi ini hanya berasal dari tren waktu dari data yang mempengaruhi kedua seri. Saya merekomendasikan untuk memodelkan data dan kemudian mencoba untuk melihat apakah pemodelan tersebut menghasilkan hasil yang serupa untuk kedua seri. Namun, menggunakan koefisien korelasi Pearson, kemungkinan besar akan memberikan hasil yang menyesatkan untuk interpretasi struktur ketergantungan.
sumber