Mengapa jalan acak saling terkait?

27

Saya telah mengamati bahwa, rata-rata, nilai absolut dari koefisien korelasi Pearson adalah hampir konstan untuk setiap pasangan jalan acak independen, terlepas dari panjang jalan.0.560.42

Adakah yang bisa menjelaskan fenomena ini?

Saya berharap korelasinya menjadi lebih kecil dengan meningkatnya panjang berjalan, seperti dengan urutan acak.

Untuk percobaan saya, saya menggunakan jalan gaussian acak dengan langkah rata-rata 0 dan langkah standar deviasi 1.

MEMPERBARUI:

Saya lupa untuk memusatkan data, itu sebabnya itu 0.56bukan 0.42.

Berikut ini skrip Python untuk menghitung korelasinya:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Adam
sumber
Pikiran pertama saya adalah bahwa seiring berjalannya waktu yang lebih lama adalah mungkin untuk mendapatkan nilai dengan magnitudo yang lebih besar, dan korelasinya mengambilnya.
John Paul
Tetapi ini akan bekerja dengan urutan acak apa pun, jika saya mengerti Anda benar, namun hanya jalan acak yang memiliki korelasi konstan.
Adam
4
Ini bukan sembarang "urutan acak": korelasinya sangat tinggi, karena setiap istilah hanya satu langkah dari yang sebelumnya. Perhatikan juga, bahwa koefisien korelasi yang Anda hitung bukanlah variabel acak yang terlibat: ini adalah koefisien korelasi untuk urutan (dipikirkan hanya sebagai data berpasangan), yang berjumlah formula besar yang melibatkan berbagai kuadrat dan perbedaan dari semua istilah dalam urutan.
whuber
10
Apakah Anda berbicara tentang korelasi antara jalan-jalan acak (lintas seri tidak dalam satu seri)? Jika demikian, itu karena jalan acak independen Anda terintegrasi tetapi tidak terkointegrasi, yang merupakan situasi terkenal di mana korelasi palsu akan muncul.
Chris Haug
8
Jika Anda mengambil perbedaan pertama, Anda tidak akan menemukan korelasi. Kurangnya stasioneritas adalah kuncinya di sini.
Paul

Jawaban:

24

Proses independen Anda tidak berkorelasi! Jika dan adalah jalan acak independen:Y tXtYt

  • Koefisien korelasi tanpa syarat waktu tidak ada. (Jangan bicara tentang .)Corr(X,Y)
  • Untuk setiap saat , memang 0.Corr ( X t , Y t )tCorr(Xt,Yt)
  • Tetapi statistik sampel berdasarkan rata - rata deret waktu tidak akan menyatu dengan apa pun! Koefisien korelasi sampel yang Anda hitung berdasarkan rata-rata beberapa pengamatan dari waktu ke waktu tidak ada artinya.

Secara intuitif, Anda mungkin menebak (secara tidak benar) bahwa:

  1. Independensi antara dua proses dan menyiratkan mereka memiliki nol korelasi. (Untuk dua jalan acak, tidak ada.){ Y t } Corr ( X , Y ){Xt}{Yt}Corr(X,Y)
  2. Rangkaian waktu, korelasi sampel (yaitu koefisien korelasi yang dihitung menggunakan deret waktu, statistik sampel seperti ) akan bertemu pada koefisien korelasi populasi sebagai . ^ μ X =1ρ^XYρXYTμX^=1Tτ=1TXτρXYT

Masalahnya adalah bahwa kedua pernyataan ini tidak berlaku untuk jalan-jalan acak! (Mereka benar untuk proses berperilaku lebih baik.)

Untuk proses non-stasioner:

  • Anda dapat berbicara tentang korelasi antara proses dan pada dua titik waktu tertentu (mis. adalah pernyataan yang masuk akal.){ Y t } Kor ( X 2 , Y 3 ){Xt}{Yt}Corr(X2,Y3)
  • Tetapi tidak masuk akal untuk berbicara tentang korelasi antara kedua seri tanpa syarat tepat waktu! tidak memiliki arti yang jelas.Corr(X,Y)

Masalah dalam kasus jalan acak?

  1. Untuk perjalanan acak, momen populasi tanpa syarat (yaitu yang tidak bergantung pada waktu ), seperti , tidak ada. (Dalam beberapa pengertian longgar, mereka tidak terbatas.) Demikian pula, koefisien korelasi tanpa syarat antara dua jalan acak independen bukanlah nol; sebenarnya tidak ada!E [ X ] ρ X YtE[X]ρXY
  2. Asumsi-asumsi teorema ergodic tidak berlaku dan berbagai rata-rata deret waktu (mis. ) tidak konvergen ke arah apa pun seperti . T1TτXτT
    • Untuk urutan stasioner, rata-rata deret waktu akhirnya akan bertemu pada rata-rata yang tanpa syarat tepat waktu. Tetapi untuk urutan non-stasioner, tidak ada berarti bahwa tanpa syarat tepat waktu!

Jika Anda memiliki berbagai pengamatan dari dua jalan acak independen dari waktu ke waktu (mis. , , dll ... dan , , ....) dan Anda menghitung koefisien korelasi sampel, Anda akan mendapatkan angka antara dan . Tapi itu tidak akan menjadi perkiraan koefisien korelasi populasi (yang tidak ada).X 2 Y 1 Y 2 - 1 1X1X2Y1Y211

Sebagai gantinya, (dihitung menggunakan rata-rata deret waktu dari hingga ) pada dasarnya akan menjadi variabel acak (mengambil nilai dalam ) yang mencerminkan dua jalur tertentu yang diambil secara acak oleh jalur acak (yaitu jalur yang ditentukan oleh undian diambil dari ruang sampel .) Berbicara dengan sangat longgar (dan tidak tepat):t=1t=T[-1,1]ohmohmρ^XY(T)t=1t=T[1,1]ωΩ

  • Jika dan keduanya berjalan ke arah yang sama, Anda akan mendeteksi hubungan positif palsu.Y tXtYt
  • Jika dan berjalan ke arah yang berbeda, Anda akan mendeteksi hubungan negatif palsu.Y tXtYt
  • Jika dan kebetulan berkeliaran di satu sama lain, Anda akan mendeteksi hubungan yang hampir nol.Y tXtYt

Anda dapat Google lebih lanjut tentang ini dengan persyaratan spurious regression random walk.

Jalan acak tidak diam dan mengambil rata-rata dari waktu ke waktu tidak akan menyatu pada apa yang akan Anda dapatkan dengan mengambil iid draw dari dalam ruang sampel . Seperti disebutkan dalam komentar di atas, Anda dapat mengambil perbedaan pertama dan untuk jalan acak, proses itu adalah diam.ω Ω Δ x t = x t - x t - 1 { Δ x t }tωΩΔxt=xt-xt-1{Δxt}

Ide gambaran besar:

Pengamatan berganda dari waktu ke waktu BUKAN sama dengan banyak pengundian dari ruang sampel!

Ingat bahwa proses stokastik waktu diskrit adalah fungsi dari kedua waktu ( ) dan ruang sampel .t N Ω{Xt}tNΩ

Untuk rata-rata dari waktu untuk bertemu dengan ekspektasi terhadap ruang sampel , Anda memerlukan stasioneritas dan ergodisitas . Ini adalah masalah inti dalam banyak analisis deret waktu. Dan jalan-acak bukanlah proses yang stasioner.ΩtΩ

Koneksi ke jawaban WHuber:

Jika Anda dapat mengambil rata-rata di beberapa simulasi (yaitu mengambil beberapa undian dari ) alih-alih dipaksa untuk mengambil rata-rata sepanjang waktu , sejumlah masalah Anda hilang.tΩt

Tentu saja Anda dapat mendefinisikan sebagai koefisien korelasi sampel yang dihitung pada dan dan ini juga akan menjadi proses stokastik.X1...XtY1...Ytρ^XY(t)X1...XtY1...Yt

Anda dapat mendefinisikan beberapa variabel acak sebagai:Zt

Zt=|ρ^XY(t)|

Untuk dua jalan acak yang dimulai dari dengan kenaikan , mudah untuk menemukan dengan simulasi (yaitu mengambil beberapa undian dari .)N ( 0 , 1 ) E [ Z 10000 ] Ω0N(0,1)E[Z10000]Ω

Di bawah ini, saya menjalankan simulasi 10.000 perhitungan sampel koefisien korelasi Pearson. Setiap kali saya:

  • Simulasi dua 10.000 jalan acak panjang (dengan kenaikan bertahap yang didistribusikan secara normal dari ).N(0,1)
  • Menghitung koefisien korelasi sampel di antara mereka.

Di bawah ini adalah histogram yang menunjukkan distribusi empiris lebih dari 10000 koefisien korelasi yang dihitung.

masukkan deskripsi gambar di sini

Anda dapat dengan jelas mengamati bahwa variabel acak dapat berada di semua tempat dalam interval . Untuk dua jalur tetap dan , koefisien korelasi sampel tidak konvergen ke apa pun ketika panjang deret waktu meningkat.[-1,1]XYρ^XY(10000)[-1,1]XY

Di sisi lain, untuk waktu tertentu (mis. ), koefisien korelasi sampel adalah variabel acak dengan rata-rata terbatas, dll ... Jika saya mengambil nilai absolut dan menghitung rata-rata di atas semua simulasi, saya menghitung sekitar 0,42. Saya tidak yakin mengapa Anda ingin melakukan ini atau mengapa ini sama sekali berarti ??, tetapi tentu saja Anda bisa.t=10,000

Kode:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Matthew Gunn
sumber
Karena ukuran sampel jelas tidak terbatas, pernyataan Anda tentang berbagai jumlah yang tidak ada membingungkan. Sulit untuk melihat bagaimana simbol Anda berlaku untuk situasi yang dijelaskan oleh OP.
whuber
Ukuran sampel Anda PERNAH PERNAH pergi hingga tak terbatas! Tidak selama Anda menggambar sampel dengan komputer, ( hanya dalam matematika murni Anda dapat membuat asumsi seperti itu ). Dan apa artinya itu: Karena Anda memiliki banyak poin yang tidak terbatas itu tidak bertemu? Dimana Anda membaca itu?
Mayou36
@whuber Semoga versi ini sedikit lebih jelas. Saya menganggap OP bertanya mengapa koefisien korelasi sampel (berdasarkan rata-rata deret waktu) antara dua segmen jalan acak tidak nol, bahkan untuk deret waktu dengan panjang yang sangat besar. Masalah mendasar adalah bahwa untuk jalan acak, berbagai momen populasi tidak ada dan rata-rata deret waktu tidak bertemu dengan apa pun.
Matthew Gunn
Namun demikian, untuk diperbaiki semuanya terbatas. Selain itu, ekspektasi koefisien korelasi sampel absolut akan menyatu seiring meningkat! Perhatikan juga, bahwa pertanyaan tersebut menyangkut nilai absolut dari koefisien itu. Harapannya (jelas) adalah nol. nnn
whuber
1
@whuber Apakah maksud Anda untuk panjang seri-waktu , semuanya terbatas? (ya saya setuju dengan itu.) Harapan dari korelasi sampel adalah nol (ya, saya setuju dengan itu). Ketika bertambah, korelasi sampel tidak menyatu pada satu titik. Untuk dua segmen jalan acak dengan panjang acak, koefisien korelasi sampel tidak jauh dari penarikan acak dari distribusi seragam pada [0, 1] (lihat histogram). ttt
Matthew Gunn
15

Matematika yang diperlukan untuk mendapatkan hasil yang tepat adalah berantakan, tetapi kita dapat memperoleh nilai yang tepat untuk koefisien korelasi kuadrat yang diharapkan relatif tanpa rasa sakit. Ini membantu menjelaskan mengapa nilai dekat terus muncul dan mengapa menambah panjang jalan acak tidak akan mengubah banyak hal.n1/2n

Ada potensi kebingungan tentang istilah standar. Korelasi absolut yang dirujuk dalam pertanyaan, bersama dengan statistik yang membuatnya - varian dan kovarian - adalah formula yang dapat diterapkan pada pasangan realisasi berjalan acak. Pertanyaannya menyangkut apa yang terjadi ketika kita melihat banyak realisasi independen. Untuk itu, kita perlu mengambil ekspektasi atas proses berjalan acak.


(Edit)

Sebelum kami melanjutkan, saya ingin berbagi beberapa wawasan grafis dengan Anda. Sepasang jalan acak independen adalah jalan acak dalam dua dimensi. Kita dapat memplot jalur yang melangkah dari masing-masing ke . Jika jalur ini cenderung ke bawah (dari kiri ke kanan, diplot pada sumbu XY biasa) kemudian untuk mempelajari nilai absolut korelasi , mari kita meniadakan semua nilai-nilai. Plot jalan-jalan di sumbu berukuran untuk memberikan nilai dan sama dengan standar deviasi dan menempatkan lebih cocok kuadrat-terkecil dari ke( X t , Y t ) X t + 1 , Y t + 1 Y X Y Y X 0 1(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX. Kemiringan garis-garis ini akan menjadi nilai absolut dari koefisien korelasi, selalu berada di antara dan .01

Gambar ini menunjukkan jalan tersebut, masing-masing dengan panjang (dengan perbedaan Normal standar). Lingkaran terbuka kecil menandai titik awal mereka. Lingkaran hitam menandai lokasi terakhir mereka.96015960

Angka

Lereng ini cenderung cukup besar. Plot scatter acak sempurna dari banyak titik ini akan selalu memiliki kemiringan yang mendekati nol. Jika kita harus menggambarkan pola yang muncul di sini, kita dapat mengatakan bahwa sebagian besar jalan acak 2D secara bertahap berpindah dari satu lokasi ke lokasi lain. (Namun, ini belum tentu lokasi awal dan titik akhir!) Kira-kira separuh waktu, bahwa migrasi terjadi dalam arah diagonal - dan kemiringannya tinggi.

Sisa posting ini membuat sketsa analisis situasi ini.


Jalan acak adalah urutan jumlah parsial ( W 1 , W 2 , ... , W n ) di mana W i adalah variabel bebas nol rata-rata yang terdistribusi secara identik. Biarkan varian umum mereka menjadi .(Xsaya)(W1,W2,...,Wn)Wsayaσ2

Dalam realisasi dari jalan tersebut, "varians" akan dihitung seolah-olah ini adalah dataset:x=(x1,...,xn)

V(x)=1n(xix¯)2.

Cara yang bagus untuk menghitung nilai ini adalah dengan mengambil setengah rata-rata dari semua perbedaan kuadrat:

V(x)=1n(n1)j>i(xjxi)2.

Ketika dipandang sebagai hasil dari random walk dari langkah, harapan inixXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Perbedaannya adalah jumlah variabel iid,

XjXi=Wi+1+Wi+2++Wj.

Perluas alun-alun dan ambil harapan. Karena independen dan memiliki nol berarti, harapan semua istilah lintas adalah nol. Yang tersisa hanya istilah seperti , yang ekspektasinya adalah . DemikianWkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Dengan mudah mengikuti itu

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

Kovarians antara dua realisasi independen dan lagi dalam arti dataset, bukan variabel acak - dapat dihitung dengan teknik yang sama (tetapi membutuhkan kerja aljabar yang lebih banyak; jumlah quadruple terlibat). Hasilnya adalah kuadrat kovarians yang diharapkanxy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

Akibatnya harapan dari koefisien korelasi kuadrat antara dan , diambil ke langkah, adalahXYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Meskipun ini tidak konstan, ia dengan cepat mendekati nilai pembatas . Akar kuadratnya, sekitar , karenanya mendekati nilai absolut yang diharapkan dari (dan meremehkannya).9/400.47ρ(n)


Saya yakin saya telah membuat kesalahan komputasi, tetapi simulasi menunjukkan akurasi asimptotik. Dalam hasil berikut ini menunjukkan histogram untuk simulasi masing-masing, garis merah vertikal menunjukkan rata-rata sedangkan garis biru putus-putus menunjukkan nilai rumus. Jelas itu salah, tetapi asimptotik itu benar. Jelas seluruh distribusi mendekati batas dengan meningkatnya . Demikian pula dengan distribusi(yang merupakan jumlah bunga) akan mendekati batas.ρ2(n)1000ρ2(n)n|ρ(n)|

Angka

Ini adalah Rkode untuk menghasilkan gambar.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
whuber
sumber
Estimasi berbasis simulasi Monte-Carlo saya untuk untuk adalah sekitar 0,24 (yang tampaknya sesuai dengan hasil Anda). Saya setuju dengan analisis Anda di sini. Anda mungkin mengerti bagaimana OP sampai ke nomornya (meskipun saya menghitung sekitar .42, bukan .56). E[ρ2]T=100
Matthew Gunn
Jika Anda dapat mengambil undian berulang dari , tidak ada yang istimewa tentang analisis deret waktu. Masalah (mis. Ergodisitas, stasioneritas dll ...) berkembang ketika Anda hanya dapat mengamati nilai-nilai baru dengan memajukan waktu yang saya asumsikan adalah apa yang ingin dicapai oleh OP ... (tapi mungkin tidak). ΩXt
Matthew Gunn
1
+1 tetapi apa intuisi tentang mengapa ada nilai asimptotik positif ini , sedangkan naif orang akan berharap bahwa jika seseorang mengambil dua jalan acak yang sangat lama mereka harus memiliki korelasi mendekati nol, yaitu naif seseorang akan mengharapkan distribusi korelasi menyusut ke nol saat tumbuh? 9/40n
Amuba kata Reinstate Monica
9/40XtYt(Xt,Yt)
2
Analisis asimptotik dari masalah yang dibahas di sini dapat ditemukan dalam Phillips (1986), Teorema 1e .
Christoph Hanck