Mengapa kumpulan data ini tidak memiliki kovarian?

8

Pemahaman saya tentang cara kerja kovarians adalah bahwa data yang berkorelasi harus memiliki kovarians yang agak tinggi. Saya telah menemukan situasi di mana data saya terlihat berkorelasi (seperti yang ditunjukkan dalam plot pencar) tetapi kovariansnya mendekati nol. Bagaimana kovarians data menjadi nol jika dikorelasikan?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

python descriptive-statistics covariance kilojoule
sumber

4

Petunjuk: Apa yang terjadi ketika Anda melihat korelasinya? Apa perbedaan antara kovarians dan korelasi?

aleshing

2

Jika Anda mengukur angka yang nampak kecil atau berdekatan pada skala tertentu, maka perbedaan di antara mereka juga akan tampak kecil, dan produk dari perbedaan itu tampak lebih kecil. Coba gandakan semua data Anda dengan dan ulangi perhitungannya; kovarians harus kali lebih besar

1000

$1000$

1000000

$1000000$

Henry

14

Besarnya kovarians tergantung pada besarnya data dan seberapa dekat titik-titik data tersebut tersebar di sekitar rata-rata data tersebut. Sangat mudah untuk melihat ketika Anda melihat formula:

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

Dalam kasus Anda, penyimpangan x1dan x2data menunjuk ke mean x1dan x2adalah:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Sekarang, jika Anda mengalikan kedua vektor itu satu sama lain, Anda jelas mendapatkan angka yang cukup kecil:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

Sekarang ambil jumlah dan bagi dengan dan Anda memiliki kovarians: $n-1$

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Itulah alasan mengapa besarnya kovarians tidak banyak berbicara tentang kekuatan bagaimana x1dan x2beragam. Dengan menstandarisasi (atau menormalkan) kovarians, yaitu membaginya dengan produk dari standar deviasi x1dan x2(sangat mirip dengan kovarians, yaitu 2.609127e-05),

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

Anda mendapatkan koefisien korelasi yang tinggi, dari $r=0.99$ , yang menegaskan apa yang dapat Anda lihat di plot Anda.

Stefan
sumber

7

Mari kita bicara tentang apa yang bisa dilihat dari pandangan sekilas pada plot dan beberapa pemeriksaan kewajaran (ini adalah hal-hal yang dapat dilakukan sebagai hal yang biasa ketika melihat data, hanya dipersenjatai dengan beberapa fakta dasar):

Namun, catatan pertama mari kita bahwa versi -denominator dari standar deviasi dapat tidak melebihi setengah rentang (yang $n$ $n-1$ versi denominator dapat, tetapi dengan lebih dari beberapa pengamatan tidak banyak).

Rentang pada kedua variabel berada di urutan 0,02 (kira-kira) sehingga varians tidak boleh lebih dari setengahnya, kuadrat, atau sekitar $10^{-4}$ .

Akibatnya, nilai-nilai yang diamati dari varian dalam output Anda masuk akal; mereka berdua kurang dari itu, tetapi lebih dari sepersepuluh darinya.

$\frac14$

$0.02$ $(0.02)^2/4=10^{-4}$

Dari analisis yang sangat kasar itu, tidak ada yang tampak mengejutkan.

$0.023$ $0.015$ $8.6\times 10^{-5}$ , tetapi karena distribusi marginal bukan distribusi hampir-simetris-dua-titik, itu harus sedikit kurang dari itu.

$2.9\times 10^{-5}$
[Variasi ini tidak seragam - mereka condong - tetapi cukup dekat untuk keperluan kita saat ini.]

$2.9\times 10^{-5}$ $2.6\times 10^{-5}$

(Tidak terlalu buruk untuk perhitungan back-of-the-envelope cepat dimulai dengan rentang hingga dua angka penting!)

Glen_b -Reinstate Monica
sumber

Mengapa kumpulan data ini tidak memiliki kovarian?

Jawaban: