Saya telah mengamati bahwa, rata-rata, nilai absolut dari koefisien korelasi Pearson adalah hampir konstan untuk setiap pasangan jalan acak independen, terlepas dari panjang jalan.0.56
0.42
Adakah yang bisa menjelaskan fenomena ini?
Saya berharap korelasinya menjadi lebih kecil dengan meningkatnya panjang berjalan, seperti dengan urutan acak.
Untuk percobaan saya, saya menggunakan jalan gaussian acak dengan langkah rata-rata 0 dan langkah standar deviasi 1.
MEMPERBARUI:
Saya lupa untuk memusatkan data, itu sebabnya itu 0.56
bukan 0.42
.
Berikut ini skrip Python untuk menghitung korelasinya:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Jawaban:
Proses independen Anda tidak berkorelasi! Jika dan adalah jalan acak independen:Y tXt Yt
Secara intuitif, Anda mungkin menebak (secara tidak benar) bahwa:
Masalahnya adalah bahwa kedua pernyataan ini tidak berlaku untuk jalan-jalan acak! (Mereka benar untuk proses berperilaku lebih baik.)
Untuk proses non-stasioner:
Masalah dalam kasus jalan acak?
Jika Anda memiliki berbagai pengamatan dari dua jalan acak independen dari waktu ke waktu (mis. , , dll ... dan , , ....) dan Anda menghitung koefisien korelasi sampel, Anda akan mendapatkan angka antara dan . Tapi itu tidak akan menjadi perkiraan koefisien korelasi populasi (yang tidak ada).X 2 Y 1 Y 2 - 1 1X1 X2 Y1 Y2 −1 1
Sebagai gantinya, (dihitung menggunakan rata-rata deret waktu dari hingga ) pada dasarnya akan menjadi variabel acak (mengambil nilai dalam ) yang mencerminkan dua jalur tertentu yang diambil secara acak oleh jalur acak (yaitu jalur yang ditentukan oleh undian diambil dari ruang sampel .) Berbicara dengan sangat longgar (dan tidak tepat):t=1t=T[-1,1]ohmohmρ^XY(T) t=1 t=T [−1,1] ω Ω
Anda dapat Google lebih lanjut tentang ini dengan persyaratan
spurious regression random walk
.Jalan acak tidak diam dan mengambil rata-rata dari waktu ke waktu tidak akan menyatu pada apa yang akan Anda dapatkan dengan mengambil iid draw dari dalam ruang sampel . Seperti disebutkan dalam komentar di atas, Anda dapat mengambil perbedaan pertama dan untuk jalan acak, proses itu adalah diam.ω Ω Δ x t = x t - x t - 1 { Δ x t }t ω Ω Δ xt= xt- xt - 1 { Δ xt}
Ide gambaran besar:
Pengamatan berganda dari waktu ke waktu BUKAN sama dengan banyak pengundian dari ruang sampel!
Ingat bahwa proses stokastik waktu diskrit adalah fungsi dari kedua waktu ( ) dan ruang sampel .t ∈ N Ω{ Xt} t ∈ N Ω
Untuk rata-rata dari waktu untuk bertemu dengan ekspektasi terhadap ruang sampel , Anda memerlukan stasioneritas dan ergodisitas . Ini adalah masalah inti dalam banyak analisis deret waktu. Dan jalan-acak bukanlah proses yang stasioner.Ωt Ω
Koneksi ke jawaban WHuber:
Jika Anda dapat mengambil rata-rata di beberapa simulasi (yaitu mengambil beberapa undian dari ) alih-alih dipaksa untuk mengambil rata-rata sepanjang waktu , sejumlah masalah Anda hilang.tΩ t
Tentu saja Anda dapat mendefinisikan sebagai koefisien korelasi sampel yang dihitung pada dan dan ini juga akan menjadi proses stokastik.X1...XtY1...Ytρ^XY( t ) X1... Xt Y1... Yt
Anda dapat mendefinisikan beberapa variabel acak sebagai:Zt
Untuk dua jalan acak yang dimulai dari dengan kenaikan , mudah untuk menemukan dengan simulasi (yaitu mengambil beberapa undian dari .)N ( 0 , 1 ) E [ Z 10000 ] Ω0 N( 0 , 1 ) E[ Z10000] Ω
Di bawah ini, saya menjalankan simulasi 10.000 perhitungan sampel koefisien korelasi Pearson. Setiap kali saya:
Di bawah ini adalah histogram yang menunjukkan distribusi empiris lebih dari 10000 koefisien korelasi yang dihitung.
Anda dapat dengan jelas mengamati bahwa variabel acak dapat berada di semua tempat dalam interval . Untuk dua jalur tetap dan , koefisien korelasi sampel tidak konvergen ke apa pun ketika panjang deret waktu meningkat.[-1,1]XYρ^XY( 10000 ) [ - 1 , 1 ] X Y
Di sisi lain, untuk waktu tertentu (mis. ), koefisien korelasi sampel adalah variabel acak dengan rata-rata terbatas, dll ... Jika saya mengambil nilai absolut dan menghitung rata-rata di atas semua simulasi, saya menghitung sekitar 0,42. Saya tidak yakin mengapa Anda ingin melakukan ini atau mengapa ini sama sekali berarti ??, tetapi tentu saja Anda bisa.t = 10 , 000
Kode:
sumber
Matematika yang diperlukan untuk mendapatkan hasil yang tepat adalah berantakan, tetapi kita dapat memperoleh nilai yang tepat untuk koefisien korelasi kuadrat yang diharapkan relatif tanpa rasa sakit. Ini membantu menjelaskan mengapa nilai dekat terus muncul dan mengapa menambah panjang jalan acak tidak akan mengubah banyak hal.n1 / 2 n
Ada potensi kebingungan tentang istilah standar. Korelasi absolut yang dirujuk dalam pertanyaan, bersama dengan statistik yang membuatnya - varian dan kovarian - adalah formula yang dapat diterapkan pada pasangan realisasi berjalan acak. Pertanyaannya menyangkut apa yang terjadi ketika kita melihat banyak realisasi independen. Untuk itu, kita perlu mengambil ekspektasi atas proses berjalan acak.
(Edit)
Sebelum kami melanjutkan, saya ingin berbagi beberapa wawasan grafis dengan Anda. Sepasang jalan acak independen adalah jalan acak dalam dua dimensi. Kita dapat memplot jalur yang melangkah dari masing-masing ke . Jika jalur ini cenderung ke bawah (dari kiri ke kanan, diplot pada sumbu XY biasa) kemudian untuk mempelajari nilai absolut korelasi , mari kita meniadakan semua nilai-nilai. Plot jalan-jalan di sumbu berukuran untuk memberikan nilai dan sama dengan standar deviasi dan menempatkan lebih cocok kuadrat-terkecil dari ke( X t , Y t ) X t + 1 , Y t + 1 Y X Y Y X 0 1( X, Y) ( Xt, Yt) Xt + 1, Yt + 1 Y X Y Y X . Kemiringan garis-garis ini akan menjadi nilai absolut dari koefisien korelasi, selalu berada di antara dan .0 1
Gambar ini menunjukkan jalan tersebut, masing-masing dengan panjang (dengan perbedaan Normal standar). Lingkaran terbuka kecil menandai titik awal mereka. Lingkaran hitam menandai lokasi terakhir mereka.96015 960
Lereng ini cenderung cukup besar. Plot scatter acak sempurna dari banyak titik ini akan selalu memiliki kemiringan yang mendekati nol. Jika kita harus menggambarkan pola yang muncul di sini, kita dapat mengatakan bahwa sebagian besar jalan acak 2D secara bertahap berpindah dari satu lokasi ke lokasi lain. (Namun, ini belum tentu lokasi awal dan titik akhir!) Kira-kira separuh waktu, bahwa migrasi terjadi dalam arah diagonal - dan kemiringannya tinggi.
Sisa posting ini membuat sketsa analisis situasi ini.
Jalan acak adalah urutan jumlah parsial ( W 1 , W 2 , ... , W n ) di mana W i adalah variabel bebas nol rata-rata yang terdistribusi secara identik. Biarkan varian umum mereka menjadi .( Xsaya) ( W1, W2, ... , Wn) Wsaya σ2
Dalam realisasi dari jalan tersebut, "varians" akan dihitung seolah-olah ini adalah dataset:x = ( x1, ... , xn)
Cara yang bagus untuk menghitung nilai ini adalah dengan mengambil setengah rata-rata dari semua perbedaan kuadrat:
Ketika dipandang sebagai hasil dari random walk dari langkah, harapan inix X n
Perbedaannya adalah jumlah variabel iid,
Perluas alun-alun dan ambil harapan. Karena independen dan memiliki nol berarti, harapan semua istilah lintas adalah nol. Yang tersisa hanya istilah seperti , yang ekspektasinya adalah . DemikianWk Wk σ2
Dengan mudah mengikuti itu
Kovarians antara dua realisasi independen dan lagi dalam arti dataset, bukan variabel acak - dapat dihitung dengan teknik yang sama (tetapi membutuhkan kerja aljabar yang lebih banyak; jumlah quadruple terlibat). Hasilnya adalah kuadrat kovarians yang diharapkanx y
Akibatnya harapan dari koefisien korelasi kuadrat antara dan , diambil ke langkah, adalahX Y n
Meskipun ini tidak konstan, ia dengan cepat mendekati nilai pembatas . Akar kuadratnya, sekitar , karenanya mendekati nilai absolut yang diharapkan dari (dan meremehkannya).9/40 0.47 ρ(n)
Saya yakin saya telah membuat kesalahan komputasi, tetapi simulasi menunjukkan akurasi asimptotik. Dalam hasil berikut ini menunjukkan histogram untuk simulasi masing-masing, garis merah vertikal menunjukkan rata-rata sedangkan garis biru putus-putus menunjukkan nilai rumus. Jelas itu salah, tetapi asimptotik itu benar. Jelas seluruh distribusi mendekati batas dengan meningkatnya . Demikian pula dengan distribusi(yang merupakan jumlah bunga) akan mendekati batas.ρ2(n) 1000 ρ2( n) n | ρ(n) |
Ini adalah
R
kode untuk menghasilkan gambar.sumber