Pemahaman saya tentang cara kerja kovarians adalah bahwa data yang berkorelasi harus memiliki kovarians yang agak tinggi. Saya telah menemukan situasi di mana data saya terlihat berkorelasi (seperti yang ditunjukkan dalam plot pencar) tetapi kovariansnya mendekati nol. Bagaimana kovarians data menjadi nol jika dikorelasikan?
import numpy as np
x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788,
0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681,
0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152,
0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536])
x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334,
0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528,
0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655,
0.03213286, 0.03827639, 0.02999955, 0.0371424 , 0.0279254 ])
print np.cov(x1, x2)
array([[ 3.95773132e-05, 2.59159589e-05],
[ 2.59159589e-05, 1.72006225e-05]])
python
descriptive-statistics
covariance
kilojoule
sumber
sumber
Jawaban:
Besarnya kovarians tergantung pada besarnya data dan seberapa dekat titik-titik data tersebut tersebar di sekitar rata-rata data tersebut. Sangat mudah untuk melihat ketika Anda melihat formula:
Dalam kasus Anda, penyimpangan
x1
danx2
data menunjuk ke meanx1
danx2
adalah:Sekarang, jika Anda mengalikan kedua vektor itu satu sama lain, Anda jelas mendapatkan angka yang cukup kecil:
Sekarang ambil jumlah dan bagi dengan dan Anda memiliki kovarians:n - 1
Itulah alasan mengapa besarnya kovarians tidak banyak berbicara tentang kekuatan bagaimana
x1
danx2
beragam. Dengan menstandarisasi (atau menormalkan) kovarians, yaitu membaginya dengan produk dari standar deviasix1
danx2
(sangat mirip dengan kovarians, yaitu2.609127e-05
),Anda mendapatkan koefisien korelasi yang tinggi, darir = 0,99 , yang menegaskan apa yang dapat Anda lihat di plot Anda.
sumber
Mari kita bicara tentang apa yang bisa dilihat dari pandangan sekilas pada plot dan beberapa pemeriksaan kewajaran (ini adalah hal-hal yang dapat dilakukan sebagai hal yang biasa ketika melihat data, hanya dipersenjatai dengan beberapa fakta dasar):
Namun, catatan pertama mari kita bahwa versi -denominator dari standar deviasi dapat tidak melebihi setengah rentang (yang n - 1n n - 1 versi denominator dapat, tetapi dengan lebih dari beberapa pengamatan tidak banyak).
Rentang pada kedua variabel berada di urutan 0,02 (kira-kira) sehingga varians tidak boleh lebih dari setengahnya, kuadrat, atau sekitar10- 4 .
Akibatnya, nilai-nilai yang diamati dari varian dalam output Anda masuk akal; mereka berdua kurang dari itu, tetapi lebih dari sepersepuluh darinya.
Dari analisis yang sangat kasar itu, tidak ada yang tampak mengejutkan.
[Variasi ini tidak seragam - mereka condong - tetapi cukup dekat untuk keperluan kita saat ini.]
(Tidak terlalu buruk untuk perhitungan back-of-the-envelope cepat dimulai dengan rentang hingga dua angka penting!)
sumber