Mengapa koefisien korelasi antara X dan variabel acak XY cenderung 0,7

49

Diambil dari Statistik Praktis untuk Penelitian Medis di mana Douglas Altman menulis di halaman 285:

... untuk dua kuantitas X dan Y, X akan dikorelasikan dengan XY. Memang, bahkan jika X dan Y adalah sampel angka acak, kita akan mengharapkan korelasi X dan XY menjadi 0,7

Saya mencoba ini di R dan sepertinya memang demikian:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Mengapa demikian? Apa teori di balik ini?

tidak ada stok
sumber
Untuk bagian apa Anda ingin penjelasan? Apakah Anda hanya ingin persamaan yang disederhanakan untuk korelasi yang dihasilkan karena korelasi yang diketahui antara x, dan y, dan kovarians antara x dan xy? Atau, apakah Anda hanya ingin tahu mengapa ada kovarian di sini?
John
Apakah ini benar untuk setiap dan ? Misalkan dan tidak berkorelasi dan biarkan . Maka saya curiga tidak akan berkorelasi dengan . Y X Z Y = X - Z X X - YXYXZY=XZXXY
Henry

Jawaban:

69

Jika dan adalah variabel acak tidak berkorelasi dengan varians yang sama , maka kita memiliki Akibatnya,Y σ 2 var ( X - Y )XYσ2ρX,X-Y=cov(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Jadi, ketika Anda menemukan korelasi sampel dan untuk kumpulan data besar diambil dari populasi dengan properti ini, yang mencakup "angka acak" sebagai kasus khusus, hasilnya cenderung dekat dengan nilai korelasi populasi
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071
Dilip Sarwate
sumber
Bisakah Anda jelaskan lebih banyak caranyacov(X,X)-cov(X,Y)=s^2
nostock
5
cov (X, X) adalah nama lain untuk var (X). cov (X, Y) = 0 karena X dan Y diasumsikan tidak berkorelasi (maka kovarians = 0).
Dilip Sarwate
58

Penjelasan geometris-statistik.

Bayangkan Anda membuat scatterplot "dalam-luar" di mana subjek adalah sumbu dan variabel dan adalah poin . Ini disebut plot ruang subjek (sebagai lawan dari plot ruang variabel biasa ). Karena hanya ada 2 poin untuk plot, semua dimensi dalam ruang seperti itu kecuali hanya dua dimensi arbitrer yang dapat mendukung 2 poin plus asalnya, berlebihan dan dapat dengan aman dijatuhkan. Jadi kita dibiarkan dengan pesawat. Kami menggambar panah vektor dari titik asal ke titik: ini adalah variabel kami dan sebagai vektor dalam ruang subjek data.n 2 XYXY

Sekarang, jika variabel dipusatkan maka, dalam ruang subjek, kosinus sudut antara vektor mereka adalah koefisien korelasinya . Pada gambar di bawah ini, vektor dan adalah ortogonal: . Ketidakcocokan adalah prasyarat yang diuraikan oleh @Dilip dalam jawaban mereka.Y r = 0XYr=0

Juga untuk variabel yang berpusat, panjang vektor dalam ruang subjek adalah standar deviasi mereka . Pada gambar, dan memiliki panjang yang sama, - varians yang sama juga merupakan prasyarat yang dibuat oleh @Dilip.YXY

Untuk menggambar variabel atau variabel kita hanya menggunakan penjumlahan atau pengurangan vektor yang telah kita lupakan sejak sekolah (pindahkan vektor Y ke ujung vektor X dan balikkan arah jika terjadi pengurangan, - ini ditunjukkan oleh panah abu-abu pada pic, - lalu gambarkan vektor ke tempat panah abu-abu menunjuk).X + YXYX+Y

Menjadi sangat jelas bahwa panjang vektor atau (standar deviasi variabel-variabel ini) adalah, dengan teorema Pythagoras, , dan sudut antara dan atau adalah 45 derajat, yang cosinus - korelasinya - adalahX + Y XYX+Y XX-YX+Y0,707 ...2σ2XXYX+Y0.707...

masukkan deskripsi gambar di sini

ttnphns
sumber
4
+1 besar untuk membagikan pendekatan ini.
Whuber
(+1) Itu cara yang sangat rapi untuk menyajikan ini!
Matt Krause
Ahh ... gambar! (+1) Bagus sekali. :-)
kardinal
11

Saya percaya bahwa ada intuisi sederhana berdasarkan simetri di sini juga. Karena X dan Y memiliki distribusi yang sama dan memiliki kovarian 0, hubungan X ± Y dengan X harus "menjelaskan" setengah dari variasi dalam X ± Y; setengah lainnya harus dijelaskan oleh Y. Jadi R 2 harus 1/2, yang berarti R adalah 1 / √2 ≈ 0,707.

denn333
sumber
Ini sepertinya intuisi yang bagus, tetapi perhatikan bahwa jika , cara standar untuk menulis adalah , bukan yang mungkin membingungkan sebagian orang bahkan jika mereka secara aljabar setara. rr2=12r 1/1/21/2
gung - Reinstate Monica
Tidak, itu sebenarnya tidak lebih standar. (Jika Anda membutuhkan bukti, lihat jawaban teratas. 38 orang yang telah memilihnya tidak berdalih dengan notasi yang sama.)
denn333
Saya salah satu dari 38 ;-). Pertanyaannya adalah, apa yang akan paling mudah diikuti oleh seseorang yang aljabarnya cukup lemah? Jika , maka lebih mudah untuk melihat bahwa . r = r2=1/2r=1/2
gung - Reinstate Monica
3

Berikut adalah cara sederhana untuk memikirkan mengapa ada korelasi di sini.

Bayangkan apa yang terjadi ketika Anda mengurangi dua distribusi. Jika nilai x rendah maka, rata-rata, x - yakan menjadi nilai lebih rendah daripada jika nilai x tinggi. Ketika x meningkat maka x - ymeningkat, rata-rata, dan dengan demikian, korelasi positif.

John
sumber
4
Saya tidak berpikir pernyataan Anda selalu benar "Akan selalu ada korelasi antara dua distribusi acak ketika ada hubungan matematika." misal x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
4
@curious_cat: Atau, mungkin untuk menjadi lebih menggugah, lepaskan ysemuanya. :-)
kardinal