Bagaimana rumus untuk menghasilkan variabel acak berkorelasi bekerja?

19

Jika kita memiliki 2 variabel acak normal, tidak berkorelasi maka kita dapat membuat 2 variabel acak berkorelasi dengan rumusX1,X2

Y=ρX1+1ρ2X2

dan kemudian akan memiliki korelasi dengan .ρ X 1YρX1

Adakah yang bisa menjelaskan dari mana formula ini berasal?

Lanza
sumber
1
Diskusi yang luas tentang hal ini dan masalah terkait muncul dalam jawaban saya di stats.stackexchange.com/a/71303 . Di antara hal-hal lain, jelas bahwa (1) asumsi Normalitas tidak relevan dan (2) Anda perlu membuat asumsi tambahan: varian dan harus sama agar korelasi dengan menjadi . X 2 Y X 1 ρX1X2YX1ρ
whuber
Tautan yang sangat menarik. Saya tidak yakin saya mengerti apa yang Anda maksud dengan normalitas menjadi tidak relevan. Jika atau X 2 tidak normal, dan menjadi lebih sulit untuk mengontrol kepadatan Y melalui algoritma Kaiser-Dickman. Ini adalah alasan utama untuk algoritma khusus untuk menghasilkan data berkorelasi tidak normal (misalnya, Headrick, 2002; Ruscio & Kaczetow, 2008; Vale & Maurelli, 1983) Misalnya, bayangkan tujuan Anda adalah untuk menghasilkan X ~ normal, Y ~ uniform , dengan ρ = .5. Menggunakan X 2 ~ seragam menghasilkan Y yang tidak seragam ( Y akhirnya menjadi kombinasi linear dari yang normal dan seragam).X1X2YXYρX2YY
Anthony
@Anthony Pertanyaannya hanya bertanya tentang korelasi , yang murni fungsi dari momen pertama dan kedua. Jawabannya tidak tergantung pada properti distribusi lainnya. Apa yang Anda diskusikan adalah topik yang berbeda sama sekali.
whuber

Jawaban:

17

Misalkan Anda ingin menemukan kombinasi linier dan X 2 sedemikian rupaX1X2

corr(αX1+βX2,X1)=ρ

Perhatikan bahwa jika Anda mengalikan dan β dengan konstanta yang sama (tidak nol), korelasinya tidak akan berubah. Jadi, kita akan menambahkan kondisi untuk mempertahankan varians: var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Ini setara dengan

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Dengan asumsi kedua variabel acak memiliki varian yang sama (ini adalah asumsi penting!) ( ), kita dapatkanvar(X1)=var(X2)

ρα2+β2=α

Ada banyak solusi untuk persamaan ini, jadi sekarang saatnya untuk mengingat kondisi pengawetan ragam:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

Dan ini membawa kita ke

α=ρβ=±1ρ2

UPD . Mengenai pertanyaan kedua: ya, ini dikenal sebagai pemutihan .

Artem Sobolev
sumber
9

Persamaannya adalah bentuk bivariat sederhana dari dekomposisi Cholesky . Persamaan yang disederhanakan ini kadang-kadang disebut algoritma Kaiser-Dickman (Kaiser & Dickman, 1962).

X1X2X1X2YX2

Referensi:

Kaiser, HF, & Dickman, K. (1962). Matriks sampel dan skor populasi dan matriks korelasi sampel dari matriks korelasi populasi arbitrer. Psychometrika, 27 (2), 179-182.

Anthony
sumber
2
I suppose you don't need standardized normal variables, just having the same variance should be enough.
Artem Sobolev
2
No, the distribution of Y is not a mixture distribution as you claim.
Dilip Sarwate
Point taken, @Dilip Sarwate. If either X1 or X2 is nonnormal, then Y becomes a linear combination of two variables that might not result in the desired distribution. This is the reason for specialized algorithms (instead of Kaiser-Dickman) for generated non-normal correlated data.
Anthony
3

Correlation coefficient is the cos between two series if they are treated as vectors (with nth data point being nth dimension of a vector). The above formula simply creates a decomposition of a vector into its cosθ, sinθ components (with respect to X1,X2).
if ρ=cosθ , then 1ρ2=±sinθ.

Because if X1,X2 are uncorrelated, the angle between them is a right angle (ie, they can be considered as orthogonal, albeit non-normalized, basis vectors ).

Dmitry Rubanovich
sumber
2
Welcome to our site! I believe your post will get more attention if you mark up the mathematical expressions using TEX: enclose them between dollar signs. There's help available when you're editing.
whuber