Apakah pemusatan berarti mengurangi kovarian?

11

Dengan asumsi saya memiliki dua variabel acak non-independen dan saya ingin mengurangi kovarians di antara mereka sebanyak mungkin tanpa kehilangan terlalu banyak "sinyal", apakah itu berarti memusatkan bantuan? Saya membaca di suatu tempat bahwa pemusatan berarti mengurangi korelasi dengan faktor yang signifikan, jadi saya pikir itu harus melakukan hal yang sama untuk kovarian.

lvdp
sumber

Jawaban:

30

Jika dan adalah variabel acak dan dan adalah konstanta, maka Pemusatan adalah kasus khusus dan , jadi pemusatan tidak memengaruhi kovarians.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Juga, karena korelasi didefinisikan sebagai kita dapat melihat bahwa jadi khususnya, korelasi tidak terpengaruh oleh pemusatan juga.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Kor(X+Sebuah,Y+b)=Cov(X+Sebuah,Y+b)Var(X+Sebuah)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


Itu adalah versi populasi dari cerita itu. Versi sampelnya sama: Jika kita menggunakan sebagai estimasi kovarians kami antara dan dari sampel berpasangan , lalu

Cov^(X,Y)=1nsaya=1n(Xsaya-1nj=1nXj)(Ysaya-1nj=1nYj)
XY(X1,Y1),...,(Xn,Yn)
Cov^(X+Sebuah,Y+b)=1nsaya=1n(Xsaya+Sebuah-1nj=1n(Xj+Sebuah))(Ysaya+b-1nj=1n(Yj+b))=1nsaya=1n(Xsaya+Sebuah-1nj=1nXj-nnSebuah)(Ysaya+b-1nj=1nYj-nnb)=1nsaya=1n(Xsaya-1nj=1nXj)(Ysaya-1nj=1nYj)=Cov^(X,Y)
untuk setiap dan .Sebuahb

Artem Mavrin
sumber
terima kasih atas jawaban terinci. Apakah ini berarti bahwa untuk kovarians sampel ukuran sampel juga tidak memiliki dampak? yaitu mengurangi ukuran sampel tidak mengurangi kovarian sampel?
lvdp
3
@ lvdp Itu mungkin harus menjadi pertanyaan terpisah.
Akumulasi
Ukuran sampel yang dikurangi hanya bisa datang dengan sampel yang berbeda. Sampel yang berbeda dapat menunjukkan kovarians yang berbeda. Tetapi karena kovarians sampel didefinisikan sebagai rata-rata, ukuran sampel pada dasarnya diskalakan.
Nick Cox
5

Definisi kovarian dan adalah . Ekspresi di formula yang merupakan versi berpusat . Jadi kita sudah memusatkan ketika kita mengambil kovarians, dan pemusatan adalah operator idempoten; setelah variabel dipusatkan, menerapkan proses pemusatan kali lebih lanjut tidak mengubahnya. Jika rumus tidak mengambil versi variabel terpusat, maka akan ada semua efek aneh, seperti kovarians antara suhu dan variabel lain yang berbeda tergantung pada apakah kita mengukur suhu dalam Celcius atau Kelvin.XYE[(X-E[X])(Y-E[Y])]X-E[X]X XXX

Akumulasi
sumber
3

"suatu tempat" cenderung menjadi sumber yang agak tidak dapat diandalkan ...

Kovarian / korelasi didefinisikan dengan keterpusatan eksplisit . Jika Anda tidak memusatkan data, maka Anda tidak menghitung kovarians / korelasi. (Tepatnya: korelasi Pearson)

Perbedaan utama adalah apakah Anda memusatkan pada model teoritis (misalnya, nilai yang diharapkan seharusnya tepat 0) atau berdasarkan data (rata-rata aritmatika). Sangat mudah untuk melihat bahwa rata-rata aritmatika akan menghasilkan Kovarian yang lebih kecil daripada pusat yang berbeda.

Namun, kovarians yang lebih kecil tidak menyiratkan korelasi yang lebih kecil, atau sebaliknya. Anggaplah kita memiliki data X = (1,2) dan Y = (2,1). Sangat mudah untuk melihat bahwa dengan rata-rata keterpusatan aritmatika ini akan menghasilkan korelasi negatif yang sempurna, sedangkan jika kita tahu proses menghasilkan rata-rata 0, data sebenarnya berkorelasi positif. Jadi, dalam contoh ini, kami memusatkan - tetapi dengan nilai teoritis yang diharapkan dari 0.

Ini bisa muncul dengan mudah. Anggap kita memiliki array sensor, 11x11, dengan sel -5 yang diberi nomor -5. Daripada mengambil rata-rata aritmatika, masuk akal untuk menggunakan rata-rata "fisik" dari array sensor kami di sini ketika mencari korelasi peristiwa sensor (jika kami menghitung sel 0 hingga 10, kami akan menggunakan 5 sebagai mean tetap, dan kami akan mendapatkan hasil yang sama persis, sehingga pilihan pengindeksan menghilang dari analisis - bagus).

Memiliki QUIT - Anony-Mousse
sumber
Terima kasih @ Anony-Mousse, akankah kovarians sampel tergantung pada ukuran sampel? Yaitu ukuran sampel yang lebih kecil akan menghasilkan kovarians yang lebih kecil (sebelum pemusatan).
lvdp
1
Tergantung pada sampel jelas. Rata-rata - saya tidak tahu. Saya berharap sampel yang lebih kecil memiliki variabilitas lebih besar, jadi mungkin nilai yang lebih ekstrim lebih sering. Tapi itu hanya intuisi.
Memiliki QUIT - Anony-Mousse