Bagaimana Anda menjelaskan perbedaan antara korelasi dan kovarian?

109

Menindaklanjuti pertanyaan ini, Bagaimana Anda menjelaskan kovarians kepada seseorang yang hanya mengerti maksudnya? , yang membahas masalah menjelaskan kovarians kepada orang awam, mengemukakan pertanyaan serupa di benak saya.

Bagaimana orang menjelaskan kepada orang baru tentang perbedaan antara kovarians dan korelasi ? Tampaknya keduanya merujuk pada perubahan dalam satu variabel yang dihubungkan kembali ke variabel lain.

Mirip dengan pertanyaan yang dirujuk, kurangnya formula akan lebih disukai.

pmgjones
sumber

Jawaban:

109

Masalah dengan kovarian adalah sulit untuk membandingkan: ketika Anda menghitung kovarians dari serangkaian tinggi dan berat, seperti yang dinyatakan dalam (masing-masing) meter dan kilogram, Anda akan mendapatkan kovarians yang berbeda dari ketika Anda melakukannya di unit lain ( yang sudah memberikan masalah bagi orang yang melakukan hal yang sama dengan atau tanpa sistem metrik!), tetapi juga, akan sulit untuk mengetahui apakah (misalnya) tinggi dan berat 'kovari lebih' dari, katakanlah panjang jari kaki dan jari Anda , hanya karena 'skala' kovarians yang dihitung berbeda.

Solusi untuk ini adalah 'menormalkan' kovarians: Anda membagi kovarians dengan sesuatu yang mewakili keragaman dan skala pada kedua kovariat, dan berakhir dengan nilai yang dijamin antara -1 dan 1: korelasi. Apa pun unit variabel asli Anda, Anda akan selalu mendapatkan hasil yang sama, dan ini juga akan memastikan bahwa Anda dapat, pada tingkat tertentu, membandingkan apakah dua variabel 'berkorelasi' lebih dari dua lainnya, hanya dengan membandingkan korelasinya.

Catatan: di atas mengasumsikan bahwa pembaca sudah memahami konsep kovarian.

Nick Sabbe
sumber
2
+1 Apakah Anda bermaksud menulis "korelasi" alih-alih "covariance" di kalimat terakhir?
whuber
Apakah Anda yakin tidak dapat membandingkan kovarian dengan unit yang berbeda? Unit-unit yang melewati kovarians dikalikan - jika X Anda ada di dalam cm, dan Y Anda ada di dalam s, maka Anda . Dan kemudian Anda bisa mengalikan hasilnya dengan faktor konversi satuan. Cobalah di R:cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101
3
@ naught101 Saya menduga intinya adalah bahwa, jika saya katakan bahwa dan tidak ada yang lain, Anda tidak akan memiliki petunjuk apakah sangat dapat diprediksi atau tidak, sedangkan jika saya diberitahu bahwa Anda Anda akan memiliki sesuatu yang sedikit lebih dapat ditafsirkan. Cov(X,Y)=1010XYCor(X,Y)=.9
pria
@ guy: Itu akan menjadi kovarian tanpa unit: PI berpikir yang penting adalah Anda tidak dapat dengan mudah membandingkan kovarian dari dua set data yang memiliki varian berbeda. Misalnya, jika Anda memiliki hubungan B = 2 * A, dan dua dataset, {A1, B1} dan {A2, B2}, di mana A1 memiliki varian 0,5 dan A2 memiliki varian 2, maka akan jauh lebih besar dari , meskipun hubungannya persis sama. cov(A2,B2)cov(A1,B1)
naught101
3
Jadi dalam istilah sederhana, korelasi> kovarians
Karl Morrison
58

Persyaratan jenis pertanyaan ini menurut saya agak aneh. Berikut adalah konsep / rumus matematika , namun saya ingin membicarakannya dalam beberapa konteks yang sama sekali tidak memiliki simbol matematika. Saya juga berpikir harus dinyatakan bahwa aljabar aktual yang diperlukan untuk memahami formula, saya pikir, harus diajarkan kepada sebagian besar individu sebelum pendidikan tinggi (tidak diperlukan pemahaman tentang aljabar matriks, hanya aljabar sederhana yang cukup).

Jadi, pada awalnya alih-alih mengabaikan rumus dan membicarakannya dalam beberapa jenis analogi magis dan heuristik, mari kita lihat rumusnya dan mencoba menjelaskan masing-masing komponen dalam langkah-langkah kecil. Perbedaan dalam hal kovarians dan korelasi, ketika melihat formula, harus menjadi jelas. Sedangkan berbicara dalam hal analogi dan heuristik saya curiga akan mengaburkan dua konsep yang relatif sederhana dan perbedaan mereka dalam banyak situasi.

Jadi mari kita mulai dengan rumus untuk kovarians sampel (ini baru saja saya ambil dan adopsi dari wikipedia);

1n1i=1n(xix¯)(yiy¯)

Untuk mempercepat semua orang, mari kita secara eksplisit mendefinisikan semua elemen dan operasi dalam formula.

  • xi dan adalah masing-masing pengukuran dari dua atribut terpisah dari pengamatan yang samayi
  • x¯ dan adalah rata-rata (atau rata-rata) dari setiap atributy¯
  • Untuk , katakan saja ini berarti kita membagi hasil akhir dengan .1n1n1
  • i=1n mungkin merupakan simbol asing bagi sebagian orang, jadi mungkin akan berguna untuk menjelaskan operasi ini. Ini hanyalah jumlah dari semua memisahkan pengamatan, dan merupakan jumlah total pengamatan.in

Pada titik ini, saya mungkin memperkenalkan contoh sederhana, untuk menunjukkan elemen dan operasi untuk berbicara. Jadi misalnya, mari kita membuat tabel, di mana setiap baris sesuai dengan pengamatan (dan dan diberi label dengan tepat). Orang mungkin akan membuat contoh-contoh ini lebih spesifik (mis. Katakanlah mewakili usia dan mewakili berat), tetapi untuk diskusi kita di sini seharusnya tidak masalah.xyxy

x y
---
2 5
4 8
9 3
5 6
0 8

Pada titik ini jika Anda merasa operasi penjumlahan dalam rumus mungkin belum sepenuhnya dipahami, Anda bisa memperkenalkannya lagi dalam konteks yang jauh lebih sederhana. Katakan saja sekarang bahwa sama dengan mengatakan dalam contoh ini;i=1n(xi)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Sekarang kekacauan itu harus dibereskan, dan kita dapat mengerjakan bagian kedua dari rumus, . Sekarang, dengan asumsi orang sudah tahu apa artinya, dan berdiri untuk, dan saya akan mengatakan, menjadi munafik dari komentar saya sendiri sebelumnya di posting, orang bisa merujuk ke mean dalam hal heuristik sederhana (misalnya tengah distribusi). Satu kemudian dapat mengambil proses ini satu operasi pada suatu waktu. Pernyataan(xix¯)(yiy¯)x¯y¯(xix¯)hanya memeriksa penyimpangan / jarak antara setiap pengamatan, dan rata-rata semua pengamatan untuk atribut tertentu. Karenanya ketika pengamatan lebih jauh dari rata-rata, operasi ini akan diberi nilai yang lebih tinggi. Satu kemudian dapat merujuk kembali ke tabel contoh yang diberikan, dan hanya menunjukkan operasi pada vektor pengamatan.x

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

Operasi ini sama untuk vektor , tetapi hanya untuk penguatan Anda dapat menyajikan operasi itu juga.y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Sekarang, istilah dan tidak boleh ambigu, dan kita bisa pergi ke operasi berikutnya, mengalikan hasil ini bersama-sama, . Seperti gung tunjukkan dalam komentar, ini sering disebut produk silang (mungkin contoh yang berguna untuk memunculkan kembali jika seseorang memperkenalkan aljabar matriks dasar untuk statistik).(xix¯)(yiy¯)(xix¯)(yiy¯)

Perhatikan apa yang terjadi ketika mengalikan, jika dua pengamatan keduanya jarak yang jauh di atas rata-rata, pengamatan yang dihasilkan akan memiliki nilai positif yang lebih besar (hal yang sama berlaku jika kedua pengamatan adalah jarak yang jauh di bawah rata-rata, seperti mengalikan dua negatif sama dengan positif). Juga perhatikan bahwa jika satu pengamatan tinggi di atas rata-rata dan yang lain jauh di bawah rata-rata, nilai yang dihasilkan akan besar (secara absolut) dan negatif (sebagai kali positif negatif sama dengan angka negatif). Akhirnya catat bahwa ketika suatu nilai sangat dekat dengan rata-rata untuk pengamatan yang manapun, mengalikan kedua nilai tersebut akan menghasilkan angka yang kecil. Sekali lagi kita bisa menyajikan operasi ini dalam sebuah tabel.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Sekarang jika ada ahli statistik di ruangan mereka harus mendidih dengan antisipasi pada saat ini. Kita dapat melihat semua elemen yang terpisah dari apa itu kovarian, dan bagaimana hal itu dihitung ikut berperan. Sekarang yang harus kita lakukan adalah merangkum hasil akhir pada tabel sebelumnya, dibagi dengan dan voila , kovarian seharusnya tidak lagi bersifat mistis (semua dengan hanya mendefinisikan satu simbol Yunani).n1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

Pada titik ini Anda mungkin ingin memperkuat dari mana asal 5, tetapi itu harus sesederhana merujuk kembali ke tabel dan menghitung jumlah pengamatan (mari kita tinggalkan perbedaan antara sampel dan populasi ke waktu lain).

Sekarang, kovarian dalam dan dari dirinya sendiri tidak memberi tahu kita banyak (itu bisa, tetapi pada titik ini tidak perlu untuk pergi ke contoh menarik tanpa menggunakan referensi magis yang tidak ditentukan kepada penonton). Dalam skenario kasus yang baik, Anda tidak perlu menjual mengapa kami harus peduli apa kovarians itu, dalam keadaan lain, Anda mungkin hanya berharap audiens Anda menjadi tawanan dan akan mengambil kata-kata Anda untuk itu. Tetapi, terus mengembangkan perbedaan antara apa itu kovarians dan apa korelasinya, kita bisa merujuk kembali ke rumus untuk korelasi. Untuk mencegah fobia simbol yunani mungkin hanya mengatakan adalah simbol umum yang digunakan untuk mewakili korelasi.ρ

ρ=Cov(x,y)Var(x)Var(y)

Sekali lagi, untuk mengulangi, pembilang dalam rumus sebelumnya hanyalah kovarians seperti yang baru saja kita definisikan, dan penyebutnya adalah akar kuadrat dari produk varian dari masing-masing seri individual. Jika Anda perlu mendefinisikan varians itu sendiri, Anda bisa saja mengatakan varians itu sama dengan kovarians seri dengan dirinya sendiri (yaitu ). Dan semua konsep yang sama yang Anda perkenalkan dengan kovarians berlaku (yaitu jika suatu seri memiliki banyak nilai yang jauh dari rata-rata, ia akan memiliki varian yang tinggi). Mungkin perhatikan di sini bahwa seri tidak dapat memiliki varian negatif juga (yang secara logis harus mengikuti dari matematika yang disajikan sebelumnya).Cov(x,x)=Var(x)

Jadi satu-satunya komponen baru yang kami perkenalkan adalah dalam penyebutnya, . Jadi kita membagi kovarians yang baru saja kita hitung berdasarkan produk dari varian masing-masing seri. Orang bisa masuk ke dalam perawatan tentang mengapa membagi dengan akan selalu menghasilkan nilai antara -1 dan 1, tapi saya curiga ketidaksetaraan Cauchy-Schwarz harus diabaikan dari agenda untuk diskusi ini. Jadi sekali lagi, saya munafik dan menggunakan beberapa, mengambil kata saya untuk itu , tetapi pada titik ini kita dapat memperkenalkan semua alasan mengapa kita menggunakan koefisien korelasi. Satu kemudian dapat berhubungan pelajaran matematika ini kembali ke heuristik yang telah diberikan dalam laporan lain, seperti respon Peter Flom iniVar(x)Var(y)Var(x)Var(y)ke salah satu pertanyaan lain. Sementara ini dikritik karena memperkenalkan konsep dalam hal pernyataan sebab akibat, pelajaran itu harus menjadi agenda di beberapa titik juga.

Saya mengerti dalam beberapa keadaan tingkat perawatan ini tidak sesuai. Senat membutuhkan ringkasan eksekutif . Dalam hal ini, Anda dapat merujuk kembali ke heuristik sederhana yang telah digunakan orang dalam contoh lain, tetapi Roma tidak dibangun dalam sehari. Dan kepada senat yang meminta ringkasan eksekutif, jika Anda memiliki waktu yang sangat sedikit mungkin Anda harus mengambil kata-kata saya untuk itu, dan membuang formalitas analogi dan poin-poin.

Andy W
sumber
4
Saya sepenuhnya setuju dengan anggapan bahwa pertanyaannya entah bagaimana di luar tujuan forum ini. Definisi kovarians sebagai adalah yang paling jelas penjelasan yang bisa dikemukakan. Itu hanya menggunakan gagasan tentang harapan. Menghindari formula mengarah ke versi yang tidak lengkap dan berpotensi menyesatkan. Dan ini tidak dapat memberikan pembaca dengan orang itu untuk menghitung kovarians / korelasi dalam situasi baru. Bukan cara terbaik untuk melawan berhitung.
cov(X,Y)=E[(XE[X])(YE[Y])]
Xi'an
14
+1, ini cukup bagus. Saya tidak akan begitu kritis terhadap pengantar konseptual. Saya telah bekerja dengan orang-orang yang cukup cemas matematika sehingga menunjukkan formula kemungkinan akan kehilangan mereka. Saya biasanya meningkatkannya dengan intuisi pertama, dan kemudian berjalan melalui matematika dengan sederhana & menyeluruh (seperti yang Anda lakukan di sini) sesudahnya . Dengan begitu, mereka hanya belajar bagaimana matematika mewakili apa yang sudah mereka ketahui, & jika mereka keluar secara mental, mereka masih belajar ide-ide besar. Sebagai titik tangensial, saya bekerja melalui matematika di Excel, yang menurut saya sangat bagus untuk ini.
gung
2
Beberapa nitpicks (maaf): dalam persamaan teratas Anda, Anda membaginya dengan , tetapi kemudian (dengan benar) mendiskusikan pembagian dengan dalam poin-poin terkait; Saya mungkin mencatat bahwa disebut "produk silang"; karena Anda telah berbicara tentang kovarians sampel , ketika Anda sampai pada korelasi, saya mungkin melewatkan hal-hal tentang dan cukup gunakan ; terakhir, korelasi dihitung dari kovarians dengan menskalakannya relatif terhadap SD , bukan variansnya, lihat di sini , misalnya. N - 1 ( x i - ˉ x ) ( y i - ˉ y ) ρ rNN1(xix¯)(yiy¯)ρr
gung
Terima kasih @ung, saya mengubah kesalahan ketik pada rumus pertama dan kemudian untuk korelasinya saya mengambil akar kuadrat dari varian yang dikalikan (alih-alih mendefinisikan standar deviasi). Saat menggunakan rho versus simbol lain, aku juga tidak merasa terlalu kuat. Jika saya mengajar dan memiliki buku teks, saya mungkin hanya ingin menyesuaikan diri dengan teks. Semoga satu lagi simbol yunani tidak menyebabkan kekacauan!
Andy W
1
Jika saya dapat meningkatkan jawaban Anda 100 kali saya akan. Sungguh penjelasan yang sangat jelas!
Julian A.
10

Korelasi (r) adalah kovarians (cov) dari variabel Anda (x & y) dibagi dengan (atau disesuaikan dengan, dengan kata lain) masing-masing standar deviasi mereka ( ).Var[x]Var[y]

Artinya, korelasi hanyalah representasi kovarians sehingga hasilnya harus terletak antara -1 (berkorelasi terbalik sempurna) dengan +1 (berkorelasi positif sempurna), mencatat bahwa nilai mendekati nol berarti dua variabel tidak berkorelasi.

Kovarian tidak terbatas dan tidak memiliki konteks ketika membandingkan dengan kovarian lainnya. Dengan menormalkan / menyesuaikan / menstandarisasi kovarian menjadi suatu korelasi, kumpulan data dapat dibandingkan dengan lebih mudah.

Seperti yang dapat Anda bayangkan, ada berbagai cara statistik (seperti kovarians) dapat dinormalisasi / distandarisasi. Rumus matematika untuk hubungan antara korelasi dan kovarian hanya mencerminkan penggunaan statistik konvensi (yaitu, menyesuaikan sesuai dengan standar deviasi mereka):

r=cov(x,y)Var[x]Var[y]
D Dawg
sumber
5

Jika Anda terbiasa dengan ide pemusatan dan standardisasi, x-xbar adalah untuk pusat x pada artinya. Hal yang sama berlaku untuk y. Jadi kovarian hanya memusatkan data. Korelasi, bagaimanapun, tidak hanya memusatkan data tetapi juga skala menggunakan standar deviasi (standardisasi). Penggandaan dan penjumlahan adalah produk titik dari dua vektor dan ini menunjukkan bagaimana paralel kedua vektor ini dibandingkan satu sama lain (proyeksi satu vektor ke yang lain). Pembagian (n-1) atau mengambil nilai yang diharapkan adalah skala untuk jumlah pengamatan. Pikiran?

pengguna31180
sumber
3

Sejauh yang saya mengerti. Korelasi adalah versi kovarians yang "dinormalisasi".

Karl Morrison
sumber
2
Seperti yang dibuktikan oleh banyak tulisan , "normalisasi" memiliki banyak arti berbeda. Yang mana yang kamu gunakan?
Whuber
-3

Korelasi diskalakan antara -1 dan +1 tergantung pada apakah ada korelasi positif atau negatif, dan tidak berdimensi. Namun kovarians, berkisar dari nol, dalam kasus dua variabel independen, hingga Var (X), dalam kasus di mana dua set data sama. Unit COV (X, Y) adalah unit X kali unit Y.

Nagaraj
sumber
6
Kovarians dapat menjadi negatif, sehingga tidak dibatasi pada 0. Hal ini juga tidak jelas bagi saya apa yang Anda maksud dengan kalimat terakhir Anda The units of COV(X,Y) are the units of X times the units of Y.,, peduli untuk menjelaskan?
Andy W
Cov(X,Y)=E[(XE[X])(YE[Y])]
1
@ naught101, Unit lewat? Komentar awal saya untuk Nagaraj adalah untuk mendorong kejelasan lebih lanjut, karena pernyataan ambigu seperti yang dikutip saya akan menegaskan tidak membantu siapa pun. Jadi, mengapa kita tidak bisa menafsirkan kovarian sebagai "satuan x dikalikan dengan satuan y", karena itu bukan seperti itu. Pernyataan yang berpotensi lebih benar (untuk kovarians sampel) adalah " rata-rata produk dari penyimpangan rata - rata ". lanjutan ...
Andy W
1
Sekarang, penyimpangan rata-rata tentu saja tidak sama dengan unit aslinya, dan statistik yang dihasilkan untuk kovarians tidak hanya tergantung pada mean dan varian dari atribut asli. Kovarians, dengan sendirinya, tidak memberi tahu Anda apa pun tanpa mengetahui varian atribut asli.
Andy W