Jika dan adalah variabel acak dan dan adalah konstanta, maka
Pemusatan adalah kasus khusus dan , jadi pemusatan tidak memengaruhi kovarians.XYSebuahbCov( X+ a , Y+ b )= E[ ( X+ a - E[ X+ a ] ) ( Y+ b - E[ Y+ b ] ) ]= E[ ( X+ a - E[ X] - E[ a ] ) ( Y+ b - E[ Y] - E[ b ] ) ]= E[ ( X+ a - E[ X] - a ) ( Y+ b - E[ Y] - b ) ]= E[ ( X- E[ X] ) ( Y- E[ Y] ) ]= Cov( X, Y) .
a = - E[ X]b = - E[ Y]
Juga, karena korelasi didefinisikan sebagai
kita dapat melihat bahwa
jadi khususnya, korelasi tidak terpengaruh oleh pemusatan juga.Kor( X, Y) = Cov( X, Y)Var( X) Var( Y)------------√,
Kor( X+ a , Y+ b )= Cov( X+ a , Y+ b )Var( X+ a ) Var( Y+ b )------------------√= Cov( X, Y)Var( X) Var( Y)------------√,
Itu adalah versi populasi dari cerita itu. Versi sampelnya sama: Jika kita menggunakan
sebagai estimasi kovarians kami antara dan dari sampel berpasangan , lalu
Covˆ( X, Y) = 1n∑i = 1n( Xsaya- 1n∑j = 1nXj) ( Ysaya- 1n∑j = 1nYj)
XY( X1, Y1) , ... , ( Xn, Yn)Covˆ( X+ a , Y+ b )= 1n∑i = 1n( Xsaya+ a - 1n∑j = 1n( Xj+ a ) ) ( Ysaya+ b - 1n∑j = 1n( Yj+ b ) )= 1n∑i = 1n( Xsaya+ a - 1n∑j = 1nXj- nna ) ( Ysaya+ b - 1n∑j = 1nYj- nnb )= 1n∑i = 1n( Xsaya- 1n∑j = 1nXj) ( Ysaya- 1n∑j = 1nYj)= Covˆ( X, Y)
untuk setiap dan .Sebuahb
Definisi kovarian dan adalah . Ekspresi di formula yang merupakan versi berpusat . Jadi kita sudah memusatkan ketika kita mengambil kovarians, dan pemusatan adalah operator idempoten; setelah variabel dipusatkan, menerapkan proses pemusatan kali lebih lanjut tidak mengubahnya. Jika rumus tidak mengambil versi variabel terpusat, maka akan ada semua efek aneh, seperti kovarians antara suhu dan variabel lain yang berbeda tergantung pada apakah kita mengukur suhu dalam Celcius atau Kelvin.X Y E[ ( X- E[ X] ) ( Y- E[ Y] ) ] X- E[ X] X XX X
sumber
"suatu tempat" cenderung menjadi sumber yang agak tidak dapat diandalkan ...
Kovarian / korelasi didefinisikan dengan keterpusatan eksplisit . Jika Anda tidak memusatkan data, maka Anda tidak menghitung kovarians / korelasi. (Tepatnya: korelasi Pearson)
Perbedaan utama adalah apakah Anda memusatkan pada model teoritis (misalnya, nilai yang diharapkan seharusnya tepat 0) atau berdasarkan data (rata-rata aritmatika). Sangat mudah untuk melihat bahwa rata-rata aritmatika akan menghasilkan Kovarian yang lebih kecil daripada pusat yang berbeda.
Namun, kovarians yang lebih kecil tidak menyiratkan korelasi yang lebih kecil, atau sebaliknya. Anggaplah kita memiliki data X = (1,2) dan Y = (2,1). Sangat mudah untuk melihat bahwa dengan rata-rata keterpusatan aritmatika ini akan menghasilkan korelasi negatif yang sempurna, sedangkan jika kita tahu proses menghasilkan rata-rata 0, data sebenarnya berkorelasi positif. Jadi, dalam contoh ini, kami memusatkan - tetapi dengan nilai teoritis yang diharapkan dari 0.
Ini bisa muncul dengan mudah. Anggap kita memiliki array sensor, 11x11, dengan sel -5 yang diberi nomor -5. Daripada mengambil rata-rata aritmatika, masuk akal untuk menggunakan rata-rata "fisik" dari array sensor kami di sini ketika mencari korelasi peristiwa sensor (jika kami menghitung sel 0 hingga 10, kami akan menggunakan 5 sebagai mean tetap, dan kami akan mendapatkan hasil yang sama persis, sehingga pilihan pengindeksan menghilang dari analisis - bagus).
sumber