Linearitas varians

16

Saya pikir dua formula berikut ini benar:

Var(aX)=a2Var(X)
sedangkan a adalah bilangan konstan
Var(X+Y)=Var(X)+Var(Y)
jikaX ,Y adalah independen

Namun, saya tidak yakin apa yang salah dengan hal di bawah ini:

Var(2X)=Var(X+X)=Var(X)+Var(X)
yang tidak sama dengan , yaitu 4 V a r ( X ) .22Var(X)4Var(X)

Jika diasumsikan bahwa adalah sampel yang diambil dari suatu populasi, saya pikir kita selalu dapat menganggap X sebagai independen dari X lainnya .XXX

Jadi apa yang salah dengan kebingungan saya?

lanselibai
sumber
8
Varians tidak linear - menunjukkan pernyataan pertama Anda ini (jika itu, Anda akan memiliki . Kovarian di sisi lain adalah bilinear.Var(aX)=aVar(X)
Batman

Jawaban:

33

Masalah dengan garis penalaran Anda adalah

"Saya pikir kita selalu dapat menganggap independen dari X lainnya ."XX

ini tidak terlepas dari X . Simbol X digunakan untuk merujuk ke variabel acak yang sama di sini. Setelah Anda mengetahui nilai X pertama yangmuncul dalam rumus Anda, ini juga memperbaiki nilai X kedua yangmuncul. Jika Anda ingin mereka merujuk ke variabel acak yang berbeda (dan berpotensi independen), Anda harus menunjukkannya dengan huruf yang berbeda (misalnya X dan Y ) atau menggunakan subskrip (misalnya X 1 dan X 2 ); yang terakhir sering (tetapi tidak selalu) digunakan untuk menunjukkan variabel yang diambil dari distribusi yang sama.XXXXXXYX1X2

Jika dua variabel dan Y adalah independen maka Pr ( X = a | Y = b ) adalah sama dengan Pr ( X = a ) : mengetahui nilai Y tidak memberikan informasi tambahan tentang nilai X . Tetapi Pr ( X = a | X = b ) adalah 1 jika a = b dan 0 sebaliknya: mengetahui nilai XXYPr(X=a|Y=b)Pr(X=a)YXPr(X=a|X=b)1a=b0Xmemberikan informasi yang lengkap tentang nilai . [Anda dapat mengganti probabilitas dalam paragraf ini dengan fungsi distribusi kumulatif, atau jika sesuai, fungsi kepadatan probabilitas, untuk efek dasarnya sama.]X

Cara lain untuk melihat hal-hal adalah bahwa jika dua variabel independen maka mereka memiliki korelasi nol (meskipun nol korelasi tidak berarti kemerdekaan !) Tapi yang sempurna berkorelasi dengan dirinya sendiri, Corr ( X , X ) = 1 sehingga X tidak bisa mandiri itu sendiri. Perhatikan bahwa karena kovarians diberikan oleh Cov ( X , Y ) = Corr ( X , Y ) XCorr(X,X)=1X , laluCov(X,X)=1Cov(X,Y)=Corr(X,Y)Var(X)Var(Y)

Cov(X,X)=1Var(X)2=Var(X)

Rumus yang lebih umum untuk varians dari penjumlahan dari dua variabel acak adalah

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Secara khusus, , jadiCov(X,X)=Var(X)

Var(X+X)=Var(X)+Var(X)+2Var(X)=4Var(X)

yang sama seperti yang Anda simpulkan dari penerapan aturan

Var(aX)=a2Var(X)Var(2X)=4Var(X)

WXYZabcd

Cov(aW+bX,Y)=aCov(W,Y)+bCov(X,Y)

Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

and overall,

Cov(aW+bX,cY+dZ)=acCov(W,Y)+adCov(W,Z)+bcCov(X,Y)+bdCov(X,Z)

You can then use this to prove the (non-linear) results for variance that you wrote in your post:

Var(aX)=Cov(aX,aX)=a2Cov(X,X)=a2Var(X)

Var(aX+bY)=Cov(aX+bY,aX+bY)=a2Cov(X,X)+abCov(X,Y)+baCov(X,Y)+b2Cov(Y,Y)Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

The latter gives, as a special case when a=b=1,

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

When X and Y are uncorrelated (which includes the case where they are independent), then this reduces to Var(X+Y)=Var(X)+Var(Y). So if you want to manipulate variances in a "linear" way (which is often a nice way to work algebraically), then work with the covariances instead, and exploit their bilinearity.

Silverfish
sumber
1
Yes! I think you pinpointed at the beginning that the confusion was essentially a notational one. I found it very helpful when one book (very explicitly, some might say laboriously) explained the interpretation of and rules of evaluating a probabilistic statement (so that, e.g., even if you know what you mean by Pr(X+X=n) where XUniform(1..6), it is technically incorrect if you're considering throwing a n in craps (and X+X=2X would never yield an odd roll); the event would be properly expressed using X1,X2 i.i.d.).
Vandermonde
1
This is in contrast to (and I think my misapprehension might have stemmed from) how 2+PRNG(6)+PRNG(6) often is how you would toss dice as above and/or notation/conventions such as 2d6=d6+d6 in which different instances are genuinely intended to be independent.
Vandermonde
@Vandermonde That's an interesting point. I initially considered mentioning the use of subscripts to distinguish between "different Xs" but didn't bother - think I might edit it in now. The argument that "you'd never get an odd total score if the sum was 2X" is very clear and convincing to someone who can't see the need to distinguish: thanks for sharing it.
Silverfish
0

Another way of thinking about it is that with random variables 2XX+X.

2X would mean two times the value of the outcome of X, while X+X would mean two trials of X. In other words, it's the difference between rolling a die once and doubling the result, vs rolling a die twice.

Benjamin
sumber
+1 This is a perfectly clear and correct answer. Welcome to our site!
whuber
Thanks @whuber!
Benjamin