Posting ini menyajikan metode penalaran yang kuat yang menghindari banyak aljabar dan perhitungan. Bagi mereka yang terbiasa dengan metode ini, pekerjaannya sangat otomatis dan alami sehingga respons awal seseorang terhadap pertanyaan seperti ini adalah "sudah jelas!" Tapi mungkin itu tidak begitu jelas sampai Anda telah melihat metodenya. Karena itu, semua detail dijelaskan, langkah demi langkah.
Latar Belakang
Ada beberapa rumus untuk varian data (dengan rata-rata ), termasukx=x1,x2,…,xnx¯=(x1+⋯+xn)/n
Var(x)=1n∑i=1n(xi−x¯)2=1n(∑i=1nx2i)−x¯2.(1)
Ini menentukan kovarians dari data berpasangan melalui(x1,y1),…,(xn,yn)
Cov(x,y)=14(Var(x+y)−Var(x−y)).
Rumus yang tersirat dalam posting kovarians-dengan-krayon yang dirujuk adalah
C(x,y)=∑i=1n−1∑j=i+1n(xj−xi)(yj−yi)=12∑i,j=1n(xj−xi)(yj−yi).(2)
Posting itu menegaskan sebanding dengan kovarians. Konstanta proporsionalitas dapat (dan memang) bervariasi dengan . Jadi, ketika salah satu implikasi dari pernyataan ini adalah ituCc(n)nx=y
C(x,x)=c(n)Var(x).
Analisis
Meskipun ini dapat dibuktikan dengan aljabar kasar, ada cara yang lebih baik: mari kita manfaatkan sifat-sifat dasar kovarian. Properti seperti apa itu? Saya ingin menyarankan yang berikut ini dasar:
Kemandirian lokasi. Yaitu, untuk nomor apa saja . (Ekspresi merujuk pada dataset .)
Cov(x,y)=Cov(x−a,y)
ax−ax1−a,x2−a,…,xn−a
Multilinearitas. Ini menyiratkan untuk nomor berapapun . (Ekspresi merujuk pada dataset .)
Cov(λx,y)=λCov(x,y)
λλxλx1,λx2,…,λxn
Simetri. Kovarians dan adalah kovarians dari dan :xyyx
Cov(x,y)=Cov(y,x).
Invarian di bawah permutasi. Kovarians tidak berubah ketika kami mengindeks ulang . Secara formal, untuk permutasi apa pun . (Ekspresi seperti mewakili pemesanan ulang sesuai dengan , sehingga )(xi,yi)
Cov(x,y)=Cov(xσ,yσ)
σ∈Snxσxiσxσ=xσ(1),xσ(2),…,xσ(n).
Semua properti ini jelas menahan dan untuk memeriksa bentuk ekspresi dan . Satu-satunya yang mungkin perlu penjelasan adalah independensi lokasi. Namun, pergeseran nilai konstan tidak mengubah residual maupun perbedaan:VarC(1)(2)xi
xi−x¯=(xi−a)−x−a¯¯¯¯¯¯¯¯¯¯¯¯
dan
xj−xi=(xj−a)−(xi−a).
Akibatnya, memang jelas bahwa versi pertama dan independen terhadap lokasi.(1)(2)
Larutan
Inilah alasannya. Karena simetris dan multilinear, itu adalah bentuk kuadrat yang sepenuhnya ditentukan oleh koefisien :Ccij=cji
C(x,y)=∑i,j=1ncijxiyj.
Karena ini adalah permutasi-invarian, untuk indeks apa pun yang mana dan ; juga, untuk semua indeks dan . Jadi, ditentukan oleh hanya dua angka, katakanlah dan . Akhirnya, salah satu dari angka-angka ini menentukan dua lainnya berdasarkan invarian lokasi: kondisi itu berarticij=ci′j′i,j,i′,j′i≠ji′≠j′cii=ci′i′ii′Cc11c12
0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)
(di mana " " dan " " merujuk ke konstanta vektor dengan nilai-nilai ini). Tapi01n
0=C(1,1)=∑i,jncij=nc11+(n2−n)c12,
menentukan masing-masing dari dan dalam hal yang lain.
c11c12
Ini sudah membuktikan poin utama: harus sebanding dengan , karena masing-masing ditentukan oleh salah satu dari koefisien mereka. Untuk menemukan konstanta proporsionalitas, periksa dua rumus dan , mencari semua tampilan : Anda dapat membaca nilai terkait dari mereka. Dari versi kedua , koefisien jelas adalah . Dari versi pertama , dengan , koefisien jelas adalahCCov(1)(2)x21c11(1)x211/n−(1/n)2(2)y=xx21n−1. (Secara geometris, setiap titik di sebar dipasangkan dengan lainnya, di mana kuadrat koordinatnya akan muncul kali.) Oleh karena itu(x,x)n−1n−1
c(n)=n−11/n−(1/n)2=n2,
QED . Ini adalah satu-satunya perhitungan yang diperlukan untuk menunjukkan
Cov(x,y)=1n2C(x,y)=1n2∑i=1n−1∑j=i+1n(xj−xi)(yj−yi).