Cara menggunakan korelasi Pearson dengan benar dengan deret waktu

47

Saya memiliki 2 time-series (keduanya mulus) yang saya ingin berkorelasi silang untuk melihat bagaimana mereka berkorelasi.

Saya bermaksud menggunakan koefisien korelasi Pearson. Apakah ini tepat?

Pertanyaan kedua saya adalah saya dapat memilih untuk mencicipi 2 seri-waktu sebaik yang saya suka. yaitu saya dapat memilih berapa banyak poin data yang akan saya berikan kepada kami. Apakah ini akan mempengaruhi koefisien korelasi yaitu output? Apakah saya perlu memperhitungkan ini?

Untuk tujuan ilustrasi

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  
pengguna1551817
sumber
1
Apa sifat dari deret waktu? Apakah mereka berjalan acak? Perlengkapan tulis? Seri ekonomi?
Aksakal

Jawaban:

72

Korelasi Pearson yang digunakan untuk melihat korelasi antara seri ... tetapi menjadi time series korelasi yang memandang seluruh kelambanan yang berbeda - fungsi korelasi silang .

Korelasi silang dipengaruhi oleh ketergantungan dalam-seri, jadi dalam banyak kasus ketergantungan dalam-seri harus dihilangkan terlebih dahulu. Jadi untuk menggunakan korelasi ini, daripada merapikan seri, sebenarnya lebih umum (karena bermakna) untuk melihat ketergantungan antara residu - bagian kasar yang tersisa setelah model yang sesuai ditemukan untuk variabel.

Anda mungkin ingin memulai dengan beberapa sumber daya dasar pada model deret waktu sebelum mempelajari untuk mencoba mencari tahu apakah korelasi Pearson di (mungkin) seri nonstasioner, yang dihaluskan dapat ditafsirkan.

Secara khusus, Anda mungkin ingin melihat fenomena di sini . [Dalam deret waktu ini kadang-kadang disebut korelasi palsu , meskipun artikel Wikipedia tentang korelasi palsu mengambil pandangan sempit tentang penggunaan istilah dengan cara yang tampaknya mengecualikan penggunaan istilah ini. Anda mungkin akan menemukan lebih banyak tentang masalah yang dibahas di sini dengan mencari regresi palsu sebagai gantinya.]

[Sunting - lanskap Wikipedia terus berubah; para para di atas. mungkin harus direvisi untuk mencerminkan apa yang ada di sana sekarang.]

mis. lihat beberapa diskusi

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (kutipan pembuka Yule, dalam makalah yang disajikan pada tahun 1925 tetapi diterbitkan pada tahun berikutnya, merangkum masalah dengan cukup baik)

  2. Christos Agiakloglou dan Apostolos Tsimpanos, Spurious Correlations for Stationary AR (1) Memproses http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (ini menunjukkan bahwa Anda bahkan bisa mendapatkan masalah antara seri stasioner; maka kecenderungan untuk prewhiten)

  3. Referensi klasik Yule, (1926) [1] disebutkan di atas.

Anda juga dapat menemukan diskusi di sini bermanfaat, serta diskusi di sini

-

Menggunakan korelasi Pearson dalam cara yang bermakna antara deret waktu itu sulit dan terkadang mengejutkan.


Saya mencari korelasi palsu, tetapi saya tidak peduli apakah seri A saya adalah penyebab seri B saya atau sebaliknya. Saya hanya ingin tahu apakah Anda dapat mempelajari sesuatu tentang seri A dengan melihat apa yang dilakukan seri B (atau sebaliknya). Dengan kata lain - apakah mereka memiliki korelasi.

Perhatikan komentar saya sebelumnya tentang penggunaan sempit istilah korelasi palsu dalam artikel Wikipedia.

Poin tentang korelasi palsu adalah bahwa seri dapat tampak berkorelasi, tetapi korelasi itu sendiri tidak bermakna. Anggap dua orang melemparkan dua koin berbeda dengan menghitung jumlah kepala sejauh ini dikurangi jumlah ekor sejauh nilai seri mereka.

(Jadi jika orang 1 melemparkan mereka memiliki 3-1 = 2 untuk nilai pada langkah waktu ke-4, dan seri mereka berjalan )HTHH...1,0,1,2,...

Jelas tidak ada hubungan apa pun antara kedua seri. Jelas tidak ada yang bisa memberi tahu Anda hal pertama tentang yang lain!

Tetapi lihat jenis korelasi yang Anda dapatkan di antara pasangan koin:

masukkan deskripsi gambar di sini

Jika saya tidak memberi tahu Anda apa itu, dan Anda mengambil sendiri sepasang seri itu, itu akan menjadi korelasi yang mengesankan bukan?

Tapi semuanya tidak ada artinya . Benar-benar palsu. Tidak satu pun dari tiga pasangan yang benar-benar lebih positif atau negatif terkait satu sama lain daripada yang lain - hanya suara yang terakumulasi . The spuriousness bukan hanya tentang prediksi, seluruh gagasan dari mempertimbangkan hubungan antara seri tanpa memperhitungkan dalam seri ketergantungan salah tempat.

Yang Anda miliki di sini adalah ketergantungan seri . Tidak ada hubungan lintas seri yang sebenarnya.

Setelah Anda menangani dengan benar masalah yang membuat seri ini bergantung secara otomatis - semuanya terintegrasi ( Bernoulli random walks ), jadi Anda perlu membedakannya - asosiasi "nyata" menghilang (korelasi lintas-seri absolut terbesar dari ketiganya adalah 0,048).

Apa yang memberitahu Anda adalah kebenaran - hubungan yang tampak hanyalah ilusi yang disebabkan oleh ketergantungan dalam rangkaian.

Pertanyaan Anda bertanya "bagaimana cara menggunakan korelasi Pearson dengan benar dengan deret waktu" - jadi harap dipahami: jika ada ketergantungan dalam-deret dan Anda tidak mengatasinya terlebih dahulu, Anda tidak akan menggunakannya dengan benar.

Selanjutnya, smoothing tidak akan mengurangi masalah ketergantungan serial; justru sebaliknya - itu membuatnya lebih buruk! Berikut adalah korelasi setelah smoothing (default loess smooth - of series vs index - dilakukan dalam R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Mereka semua mendapatkan lebih jauh dari 0. Mereka semua masih tidak lain hanyalah suara yang tidak berarti , meskipun sekarang sudah dihaluskan, suara yang terakumulasi. (Dengan menghaluskan, kami mengurangi variabilitas dalam seri yang kami masukkan ke dalam perhitungan korelasi, sehingga mungkin itulah mengapa korelasinya naik.)

[1]: Yule, GU (1926) "Mengapa kita Terkadang mendapatkan Korelasi Omong kosong antara Time-Series?" J.Roy.Stat.Soc. , 89 , 1 , hlm. 1-63

Glen_b
sumber
Terima kasih atas jawabannya. Saya mencari korelasi palsu, tetapi saya tidak peduli apakah seri A saya adalah penyebab seri B saya atau sebaliknya. Saya hanya ingin tahu apakah Anda dapat mempelajari sesuatu tentang seri A dengan melihat apa yang dilakukan seri B (atau sebaliknya). Dengan kata lain - apakah mereka memiliki korelasi.
user1551817
Silakan lihat jawaban saya yang diperbarui.
Glen_b
2
"..so kamu perlu membedakan mereka .." apa artinya sebenarnya? Mungkin membedakan mereka? ...
Georgios Pligoropoulos
1
Membedakan - lihat Wikipedia di sini atau bagian ini dari buku Peramalan, Prinsip dan Praktik . Pada pertanyaan Anda selanjutnya, sisa paragraf yang Anda kutip cukup eksplisit mengatakannya. (Tapi itu bukan satu-satunya kemungkinan, hanya menggambarkan satu hal yang cukup umum yang dilakukan)
Glen_b
1
Saya telah menemukan apa yang tampaknya merupakan versi lain dari makalah ini, dan menambahkan judul dan penulis
Glen_b
6

(St)1tTXt=StSt1) yang (dalam kasus jalan acak) independen dan terdistribusi secara identik. Saya sarankan Anda untuk menggunakan korelasi Spearman atau yang Kendall, karena mereka lebih kuat daripada koefisien Pearson. Pearson mengukur ketergantungan linier sedangkan pengukuran Spearman dan Kendall tidak berubah oleh transformasi variabel Anda yang monoton.

Juga, bayangkan dua deret waktu sangat tergantung, katakanlah bergerak naik dan turun bersama, tetapi satu mengalami variasi yang kuat dan yang lainnya memiliki variasi yang selalu ringan, korelasi Pearson Anda akan agak rendah tidak seperti yang Spearman dan Kendall (yang adalah perkiraan ketergantungan yang lebih baik antara rangkaian waktu Anda).

Untuk perawatan menyeluruh tentang hal ini dan pemahaman yang lebih baik tentang ketergantungan, Anda dapat melihat Teori Copula , dan untuk aplikasi deret waktu .

mik
sumber
4

Data deret waktu biasanya tergantung pada waktu. Namun korelasi Pearson sesuai untuk data independen. Masalah ini mirip dengan yang disebut regresi palsu. Koefisien cenderung sangat signifikan tetapi ini hanya berasal dari tren waktu dari data yang mempengaruhi kedua seri. Saya merekomendasikan untuk memodelkan data dan kemudian mencoba untuk melihat apakah pemodelan tersebut menghasilkan hasil yang serupa untuk kedua seri. Namun, menggunakan koefisien korelasi Pearson, kemungkinan besar akan memberikan hasil yang menyesatkan untuk interpretasi struktur ketergantungan.

random_guy
sumber