Memahami bahwa secara intuitif

8

Saya baru saja melihat pertanyaan ini dan jawaban yang diterima dengan indah di forum ini. Saya kemudian dipicu untuk mencoba memahami secara intuitif mengapa pembagian menormalkan kovarians:SxSy

COV(X,Y)SxSy[1,1]

Saya pikir ini akan sangat membantu jika saya hanya mengerti mengapa menormalkan menjadi . Tentu saja saya mengerti bahwa menurut definisi mereka sama. Tapi pertanyaan saya pada dasarnya adalah ini: Menggunakan terminologi dari jawaban yang diterima, mengapa jumlah total merah dalam plot persis (lebih akurat, sejauh yang saya mengerti, adalah untuk mengatakan jumlah dari segi empat yang dibagi oleh harus ). Maksud saya, jika kita mengambil sampel pengamatan, daripada kita memiliki persegi panjang, saat menggunakan definisi, kita harus menemukan rata-rata hanya nilai.SxSxCOV(X,X)1SxSx=VAR(X)n2VAR(X)104510

d_e
sumber

Jawaban:

8

Posting ini menyajikan metode penalaran yang kuat yang menghindari banyak aljabar dan perhitungan. Bagi mereka yang terbiasa dengan metode ini, pekerjaannya sangat otomatis dan alami sehingga respons awal seseorang terhadap pertanyaan seperti ini adalah "sudah jelas!" Tapi mungkin itu tidak begitu jelas sampai Anda telah melihat metodenya. Karena itu, semua detail dijelaskan, langkah demi langkah.

Latar Belakang

Ada beberapa rumus untuk varian data (dengan rata-rata ), termasukx=x1,x2,,xnx¯=(x1++xn)/n

(1)Var(x)=1ni=1n(xix¯)2=1n(i=1nxi2)x¯2.

Ini menentukan kovarians dari data berpasangan melalui(x1,y1),,(xn,yn)

Cov(x,y)=14(Var(x+y)Var(xy)).

Rumus yang tersirat dalam posting kovarians-dengan-krayon yang dirujuk adalah

(2)C(x,y)=i=1n1j=i+1n(xjxi)(yjyi)=12i,j=1n(xjxi)(yjyi).

Posting itu menegaskan sebanding dengan kovarians. Konstanta proporsionalitas dapat (dan memang) bervariasi dengan . Jadi, ketika salah satu implikasi dari pernyataan ini adalah ituCc(n)nx=y

C(x,x)=c(n)Var(x).

Analisis

Meskipun ini dapat dibuktikan dengan aljabar kasar, ada cara yang lebih baik: mari kita manfaatkan sifat-sifat dasar kovarian. Properti seperti apa itu? Saya ingin menyarankan yang berikut ini dasar:

  1. Kemandirian lokasi. Yaitu, untuk nomor apa saja . (Ekspresi merujuk pada dataset .)

    Cov(x,y)=Cov(xa,y)
    axax1a,x2a,,xna
  2. Multilinearitas. Ini menyiratkan untuk nomor berapapun . (Ekspresi merujuk pada dataset .)

    Cov(λx,y)=λCov(x,y)
    λλxλx1,λx2,,λxn
  3. Simetri. Kovarians dan adalah kovarians dari dan :xyyx

    Cov(x,y)=Cov(y,x).
  4. Invarian di bawah permutasi. Kovarians tidak berubah ketika kami mengindeks ulang . Secara formal, untuk permutasi apa pun . (Ekspresi seperti mewakili pemesanan ulang sesuai dengan , sehingga )(xi,yi)

    Cov(x,y)=Cov(xσ,yσ)
    σSnxσxiσxσ=xσ(1),xσ(2),,xσ(n).

Semua properti ini jelas menahan dan untuk memeriksa bentuk ekspresi dan . Satu-satunya yang mungkin perlu penjelasan adalah independensi lokasi. Namun, pergeseran nilai konstan tidak mengubah residual maupun perbedaan:VarC(1)(2)xi

xix¯=(xia)xa¯

dan

xjxi=(xja)(xia).

Akibatnya, memang jelas bahwa versi pertama dan independen terhadap lokasi.(1)(2)


Larutan

Inilah alasannya. Karena simetris dan multilinear, itu adalah bentuk kuadrat yang sepenuhnya ditentukan oleh koefisien :Ccij=cji

C(x,y)=i,j=1ncijxiyj.

Karena ini adalah permutasi-invarian, untuk indeks apa pun yang mana dan ; juga, untuk semua indeks dan . Jadi, ditentukan oleh hanya dua angka, katakanlah dan . Akhirnya, salah satu dari angka-angka ini menentukan dua lainnya berdasarkan invarian lokasi: kondisi itu berarticij=ciji,j,i,jijijcii=ciiiiCc11c12

0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)

(di mana " " dan " " merujuk ke konstanta vektor dengan nilai-nilai ini). Tapi01n

0=C(1,1)=i,jncij=nc11+(n2n)c12,
menentukan masing-masing dari dan dalam hal yang lain.c11c12

Ini sudah membuktikan poin utama: harus sebanding dengan , karena masing-masing ditentukan oleh salah satu dari koefisien mereka. Untuk menemukan konstanta proporsionalitas, periksa dua rumus dan , mencari semua tampilan : Anda dapat membaca nilai terkait dari mereka. Dari versi kedua , koefisien jelas adalah . Dari versi pertama , dengan , koefisien jelas adalahCCov(1)(2)x12c11(1)x121/n(1/n)2(2)y=xx12n1. (Secara geometris, setiap titik di sebar dipasangkan dengan lainnya, di mana kuadrat koordinatnya akan muncul kali.) Oleh karena itu(x,x)n1n1

c(n)=n11/n(1/n)2=n2,

QED . Ini adalah satu-satunya perhitungan yang diperlukan untuk menunjukkan

Cov(x,y)=1n2C(x,y)=1n2i=1n1j=i+1n(xjxi)(yjyi).
whuber
sumber