Mengapa koefisien korelasi antara X dan variabel acak XY cenderung 0,7

49

Diambil dari Statistik Praktis untuk Penelitian Medis di mana Douglas Altman menulis di halaman 285:

... untuk dua kuantitas X dan Y, X akan dikorelasikan dengan XY. Memang, bahkan jika X dan Y adalah sampel angka acak, kita akan mengharapkan korelasi X dan XY menjadi 0,7

Saya mencoba ini di R dan sepertinya memang demikian:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Mengapa demikian? Apa teori di balik ini?

correlation random-variable intuition tidak ada stok
sumber

Untuk bagian apa Anda ingin penjelasan? Apakah Anda hanya ingin persamaan yang disederhanakan untuk korelasi yang dihasilkan karena korelasi yang diketahui antara x, dan y, dan kovarians antara x dan xy? Atau, apakah Anda hanya ingin tahu mengapa ada kovarian di sini?

John

Apakah ini benar untuk setiap dan ? Misalkan dan tidak berkorelasi dan biarkan . Maka saya curiga tidak akan berkorelasi dengan .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

Henry

69

Jika dan adalah variabel acak tidak berkorelasi dengan varians yang sama , maka kita memiliki Akibatnya, $X$ $Y$ $\sigma^2$

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$ Jadi, ketika Anda menemukan korelasi sampel dan untuk kumpulan data besar diambil dari populasi dengan properti ini, yang mencakup "angka acak" sebagai kasus khusus, hasilnya cenderung dekat dengan nilai korelasi populasi

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

Dilip Sarwate
sumber

Bisakah Anda jelaskan lebih banyak caranyacov(X,X)-cov(X,Y)=s^2

nostock

5

cov (X, X) adalah nama lain untuk var (X). cov (X, Y) = 0 karena X dan Y diasumsikan tidak berkorelasi (maka kovarians = 0).

Dilip Sarwate

58

Penjelasan geometris-statistik.

Bayangkan Anda membuat scatterplot "dalam-luar" di mana subjek adalah sumbu dan variabel dan adalah poin . Ini disebut plot ruang subjek (sebagai lawan dari plot ruang variabel biasa ). Karena hanya ada 2 poin untuk plot, semua dimensi dalam ruang seperti itu kecuali hanya dua dimensi arbitrer yang dapat mendukung 2 poin plus asalnya, berlebihan dan dapat dengan aman dijatuhkan. Jadi kita dibiarkan dengan pesawat. Kami menggambar panah vektor dari titik asal ke titik: ini adalah variabel kami dan sebagai vektor dalam ruang subjek data. $n$ $2$ $X$ $Y$ $X$ $Y$

Sekarang, jika variabel dipusatkan maka, dalam ruang subjek, kosinus sudut antara vektor mereka adalah koefisien korelasinya . Pada gambar di bawah ini, vektor dan adalah ortogonal: . Ketidakcocokan adalah prasyarat yang diuraikan oleh @Dilip dalam jawaban mereka. $X$ $Y$ $r=0$

Juga untuk variabel yang berpusat, panjang vektor dalam ruang subjek adalah standar deviasi mereka . Pada gambar, dan memiliki panjang yang sama, - varians yang sama juga merupakan prasyarat yang dibuat oleh @Dilip. $X$ $Y$

Untuk menggambar variabel atau variabel kita hanya menggunakan penjumlahan atau pengurangan vektor yang telah kita lupakan sejak sekolah (pindahkan vektor Y ke ujung vektor X dan balikkan arah jika terjadi pengurangan, - ini ditunjukkan oleh panah abu-abu pada pic, - lalu gambarkan vektor ke tempat panah abu-abu menunjuk). $X-Y$ $X+Y$

Menjadi sangat jelas bahwa panjang vektor atau (standar deviasi variabel-variabel ini) adalah, dengan teorema Pythagoras, , dan sudut antara dan atau adalah 45 derajat, yang cosinus - korelasinya - adalah $X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

masukkan deskripsi gambar di sini

ttnphns
sumber

4

+1 besar untuk membagikan pendekatan ini.

Whuber

(+1) Itu cara yang sangat rapi untuk menyajikan ini!

Matt Krause

Ahh ... gambar! (+1) Bagus sekali. :-)

kardinal

11

Saya percaya bahwa ada intuisi sederhana berdasarkan simetri di sini juga. Karena X dan Y memiliki distribusi yang sama dan memiliki kovarian 0, hubungan X ± Y dengan X harus "menjelaskan" setengah dari variasi dalam X ± Y; setengah lainnya harus dijelaskan oleh Y. Jadi R ² harus 1/2, yang berarti R adalah 1 / √2 ≈ 0,707.

denn333
sumber

Ini sepertinya intuisi yang bagus, tetapi perhatikan bahwa jika , cara standar untuk menulis adalah , bukan yang mungkin membingungkan sebagian orang bahkan jika mereka secara aljabar setara.

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

gung - Reinstate Monica

Tidak, itu sebenarnya tidak lebih standar. (Jika Anda membutuhkan bukti, lihat jawaban teratas. 38 orang yang telah memilihnya tidak berdalih dengan notasi yang sama.)

denn333

Saya salah satu dari 38 ;-). Pertanyaannya adalah, apa yang akan paling mudah diikuti oleh seseorang yang aljabarnya cukup lemah? Jika , maka lebih mudah untuk melihat bahwa .

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

gung - Reinstate Monica

3

Berikut adalah cara sederhana untuk memikirkan mengapa ada korelasi di sini.

Bayangkan apa yang terjadi ketika Anda mengurangi dua distribusi. Jika nilai x rendah maka, rata-rata, x - yakan menjadi nilai lebih rendah daripada jika nilai x tinggi. Ketika x meningkat maka x - ymeningkat, rata-rata, dan dengan demikian, korelasi positif.

John
sumber

4

Saya tidak berpikir pernyataan Anda selalu benar "Akan selalu ada korelasi antara dua distribusi acak ketika ada hubungan matematika." misal x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

curious_cat

4

@curious_cat: Atau, mungkin untuk menjadi lebih menggugah, lepaskan ysemuanya. :-)

kardinal

Mengapa koefisien korelasi antara X dan variabel acak XY cenderung 0,7

Jawaban: