Bagaimana Anda menjelaskan kovarian kepada seseorang yang hanya mengerti maksudnya?

207

... dengan asumsi bahwa saya dapat menambah pengetahuan mereka tentang varians secara intuitif ( Memahami "varians" secara intuitif ) atau dengan mengatakan: Ini adalah jarak rata-rata dari nilai data dari 'rata-rata' - dan karena varians berada dalam kuadrat unit, kami mengambil akar kuadrat untuk menjaga unit yang sama dan itu disebut standar deviasi.

Mari kita asumsikan ini banyak yang diartikulasikan dan (mudah-mudahan) dipahami oleh 'penerima'. Sekarang apa itu kovarians dan bagaimana seseorang menjelaskannya dalam bahasa Inggris sederhana tanpa menggunakan istilah / rumus matematika? (Yaitu, penjelasan intuitif.;)

Harap dicatat: Saya tahu rumus dan matematika di balik konsep. Saya ingin bisa 'menjelaskan' hal yang sama dengan cara yang mudah dimengerti, tanpa menyertakan matematika; yaitu, apa artinya 'kovarians'?

PhD
sumber
1
@ Xi'an - 'bagaimana' tepatnya Anda mendefinisikannya melalui regresi linier sederhana ? Saya benar-benar ingin tahu ...
PhD
3
Dengan asumsi Anda sudah memiliki sebaran dari dua variabel Anda, x vs y, dengan asal pada (0,0), cukup gambar dua garis pada x = rata-rata (x) (vertikal) dan y = rata-rata (x) (horizontal): menggunakan sistem koordinat baru ini (asal berada di (mean (x), mean (y)), beri tanda "+" di kuadran kanan atas dan kiri bawah, tanda "-" di dua kuadran lain; Anda mendapatkan tanda kovarians, yang pada dasarnya adalah apa yang dikatakan
@Peter
1
@ chl - dapatkah Anda mempostingnya sebagai jawaban dan mungkin menggunakan grafik untuk menggambarkannya!
PhD
Saya menemukan video di situs web ini untuk membantu saya karena saya lebih suka gambar daripada penjelasan abstrak. Situs web dengan video Khususnya gambar ini :! [Masukkan deskripsi gambar di sini ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

Jawaban:

375

Terkadang kita bisa "menambah pengetahuan" dengan pendekatan yang tidak biasa atau berbeda. Saya ingin balasan ini dapat diakses oleh anak-anak TK dan juga bersenang-senang, jadi semua orang mengeluarkan krayon Anda!

Diberikan data berpasangan , gambar sebar mereka. (Para siswa yang lebih muda mungkin membutuhkan guru untuk menghasilkan ini untuk mereka. :-) Setiap pasangan poin , dalam plot itu menentukan sebuah persegi panjang: itu adalah kotak terkecil, yang sisinya sejajar dengan kapak, berisi titik-titik itu. Jadi poinnya ada di sudut kanan atas dan kiri bawah (hubungan "positif") atau titik di sudut kiri atas dan kanan bawah (hubungan "negatif").(x,y)(xi,yi)(xj,yj)

Gambarlah semua persegi panjang yang mungkin. Warnai mereka secara transparan, membuat persegi positif merah (katakanlah) dan persegi negatif "anti-merah" (biru). Dengan cara ini, di mana pun persegi panjang tumpang tindih, warnanya akan ditingkatkan ketika mereka sama (biru dan biru atau merah dan merah) atau membatalkan ketika mereka berbeda.

Persegi panjang positif dan negatif

( Dalam ilustrasi persegi panjang positif (merah) dan negatif (biru) ini, tumpang tindih seharusnya berwarna putih; sayangnya, perangkat lunak ini tidak memiliki warna "anti-merah" yang sebenarnya. Tumpang tindih ini berwarna abu-abu, sehingga akan menggelapkan warna. plot, tetapi secara keseluruhan jumlah bersih merah sudah benar. )

Sekarang kita siap untuk penjelasan kovarian.

Kovarians adalah jumlah bersih merah dalam plot (memperlakukan biru sebagai nilai negatif).

Berikut adalah beberapa contoh dengan 32 titik binormal yang diambil dari distribusi dengan kovarian yang diberikan, dipesan dari paling negatif (biru) ke paling positif (merah).

Plot kovarian, diperbarui tahun 2019

Mereka ditarik pada kapak biasa untuk membuat mereka sebanding. Persegi panjang dengan ringan diuraikan untuk membantu Anda melihatnya. Ini adalah versi asli (2019) yang diperbarui: ia menggunakan perangkat lunak yang benar membatalkan warna merah dan cyan dalam persegi panjang yang tumpang tindih.

Mari kita simpulkan beberapa sifat kovarians. Memahami sifat-sifat ini akan dapat diakses oleh siapa saja yang telah benar-benar menggambar beberapa persegi panjang. :-)

  • Bilinearitas. Karena jumlah merah tergantung pada ukuran plot, kovarians berbanding lurus dengan skala pada sumbu x dan dengan skala pada sumbu y.

  • Korelasi. Kovarian meningkat ketika titik mendekati garis miring ke atas dan menurun saat titik mendekati garis miring ke bawah. Ini karena dalam kasus sebelumnya sebagian besar persegi panjang positif dan dalam kasus terakhir, sebagian besar negatif.

  • Hubungan dengan asosiasi linier. Karena asosiasi non-linear dapat membuat campuran persegi panjang positif dan negatif, mereka menyebabkan kovarian yang tidak dapat diprediksi (dan tidak terlalu berguna). Asosiasi linier dapat sepenuhnya ditafsirkan dengan menggunakan dua penokohan sebelumnya.

  • Kepekaan terhadap pencilan. Sebuah pencilan geometris (satu titik menjauhi massa) akan membuat banyak persegi panjang besar yang berasosiasi dengan semua titik lainnya. Itu saja dapat membuat jumlah bersih positif atau negatif merah dalam gambar keseluruhan.

Secara kebetulan, definisi kovarian ini berbeda dari yang biasa hanya dengan konstanta proporsionalitas universal (terlepas dari ukuran kumpulan data). Cenderung matematis tidak akan kesulitan melakukan demonstrasi aljabar bahwa rumus yang diberikan di sini selalu dua kali kovarians biasa.

whuber
sumber
92
+1 Wow. Ini bahkan berfungsi untuk menjelaskan kovarian kepada mereka yang sudah mengira mereka tahu apa itu.
Aaron
7
+1 Saya sangat menikmati membaca respons Anda. Saya akan menggambar beberapa persegi panjang, dan biarkan anak saya melukisnya :)
chl
18
Sekarang jika hanya semua konsep statistik pengantar dapat disajikan kepada siswa dengan cara yang jernih ini ...
MannyG
4
Ini indah. Dan sangat jelas.
Benjamin Mako Hill
4
@ fcoppens Memang, ada penjelasan tradisional yang muncul seperti yang Anda sarankan. Saya memikirkan yang ini karena saya tidak ingin memperkenalkan ide yang tidak perlu - yaitu, membangun centroid . Itu akan membuat penjelasan tidak dapat diakses oleh anak berusia lima tahun dengan sekotak krayon. Beberapa kesimpulan yang saya buat pada akhirnya juga tidak langsung. Sebagai contoh, tidak lagi begitu jelas bahwa kovarians peka terhadap jenis outlier tertentu. (x¯,y¯)
whuber
61

Untuk menguraikan komentar saya, saya biasa mengajar kovarians sebagai ukuran variasi rata-rata (rata-rata) antara dua variabel, misalnya dan .yxy

Sangat berguna untuk mengingat rumus dasar (mudah dijelaskan, tidak perlu berbicara tentang harapan matematika untuk kursus pengantar):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

sehingga kita melihat dengan jelas bahwa setiap pengamatan, , dapat berkontribusi positif atau negatif terhadap kovarians, tergantung pada produk deviasi mereka dari rata-rata dua variabel, dan . Perhatikan bahwa saya tidak berbicara tentang besarnya di sini, tetapi hanya tentang tanda kontribusi pengamatan ke-i.ˉ x ˉ y(xi,yi)x¯y¯

Inilah yang saya gambarkan dalam diagram berikut. Data buatan dihasilkan menggunakan model linier (kiri, ; kanan, , di mana diambil dari distribusi gaussian dengan rata-rata nol dan , dan dari distribusi seragam pada interval ).y=1.2x+εy=0.1x+εεSD=2x[0,20]

masukkan deskripsi gambar di sini

Bilah vertikal dan horizontal masing-masing mewakili rata-rata dan . Itu berarti bahwa alih-alih "melihat pengamatan individu" dari asal , kita dapat melakukannya dari . Ini sama dengan terjemahan pada sumbu x dan y. Dalam sistem koordinat baru ini, setiap pengamatan yang terletak di kuadran kanan atas atau kiri bawah berkontribusi positif terhadap kovarians, sedangkan pengamatan yang terletak di dua kuadran lain berkontribusi negatif terhadapnya. Dalam kasus pertama (kiri), kovarians sama dengan 30,11 dan distribusi di empat kuadran diberikan di bawah ini:xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

Jelas, ketika di atas rata-rata, maka lakukan sesuai (wrt. ). Eye-balling bentuk awan 2D titik, ketika nilai meningkatkan nilai cenderung meningkat juga. (Tapi ingat kita juga bisa menggunakan fakta bahwa ada hubungan yang jelas antara kovarians dan kemiringan garis regresi, yaitu .)xiyiy¯xyb=Cov(x,y)/Var(x)

Dalam kasus kedua (kanan, sama ), kovarians sama dengan 3,54 dan distribusi lintas kuadran lebih "homogen" seperti yang ditunjukkan di bawah ini:xi

   +  -
+ 18 14
- 12 16

Dengan kata lain, ada peningkatan jumlah kasus di mana dan tidak covary dalam arah yang sama wrt. cara mereka.xiyi

Perhatikan bahwa kita dapat mengurangi kovarians dengan menskalakan atau . Di panel kiri, kovarians (atau ) dikurangi sepuluh kali lipat (3,01). Karena unit-unit pengukuran dan penyebaran dan (relatif terhadap kemampuannya) menyulitkan untuk menafsirkan nilai kovarians dalam istilah absolut, kami biasanya skala kedua variabel dengan standar deviasi mereka dan mendapatkan koefisien korelasi. Ini berarti bahwa selain memusatkan kembali scatterplot key ( x / 10 , y ) ( x , y / 10 )xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)kami juga menskala unit x dan y dalam hal standar deviasi, yang mengarah ke ukuran yang lebih dapat ditafsirkan dari kovarisasi linier antara dan .xy

chl
sumber
28

Kovarian adalah ukuran seberapa banyak satu variabel naik ketika variabel lainnya naik.

Peter Flom
sumber
1
Apakah selalu ke arah yang sama? Juga, apakah itu berlaku untuk hubungan terbalik juga (yaitu, ketika satu naik yang lain turun)?
PhD
4
@nupul Nah, kebalikan dari "atas" adalah "turun" dan kebalikan dari "positif" adalah "negatif". Saya mencoba memberikan jawaban satu kalimat. Milikmu jauh lebih lengkap. Bahkan "bagaimana dua variabel Anda berubah bersama" lebih lengkap, tetapi, saya pikir, sedikit lebih sulit untuk dipahami.
Peter Flom
1
+1 untuk memasangnya dalam satu kalimat sederhana, tetapi bukankah itu korelasi? Maksud saya, saya tahu lebih besar cov => corr lebih besar, tetapi dengan kalimat itu, saya akan mengharapkan sesuatu seperti "80%" sebagai jawaban, yang sesuai dengan corr = 0,8. Bukankah cov juga menggambarkan varians dalam data? yaitu. "Kovarian sebanding dengan berapa banyak satu variabel naik ketika yang lain naik, dan juga sebanding dengan penyebaran data di kedua variabel", atau sesuatu?
naught101
4
Itu benar, Peter, itulah sebabnya @ naught101 membuat komentar: deskripsi Anda terdengar seperti tingkat perubahan, yang unitnya akan menjadi [unit dari satu variabel] / [unit dari variabel lain] (jika kita menafsirkannya seperti turunan) ) atau hanya akan menjadi [unit satu variabel] (jika kita mengartikannya sebagai perbedaan murni). Itu bukan kovarians (yang satuan ukurnya adalah produk satuan untuk dua variabel) atau korelasi (yang tanpa unit).
whuber
1
@nbro Pertimbangkan contoh konkret: misalkan Anda tahu kovarians variabel dan adalah misalnya. Bahkan dengan pemahaman yang paling dermawan tentang "variabel" dan "naik," dapatkah Anda memberi tahu dari informasi itu sendiri berapa banyak naik ketika naik dengan jumlah yang diberikan? Jawabannya adalah tidak: satu - satunya informasi yang Anda berikan adalah bahwa akan cenderung meningkat. Dalam posting ini Peter telah membingungkan kovarians dengan koefisien regresi (yang ada dua, omong-omong, dan mereka biasanya berbeda). Y 1 , Y X YXY1,YXY
whuber
12

Aku sedang menjawab pertanyaan saya sendiri, tapi saya pikir itu akan menjadi besar untuk orang-orang datang di posting ini untuk memeriksa beberapa penjelasan di halaman ini .

Saya memparafrasekan salah satu jawaban yang diartikulasikan dengan sangat baik (oleh pengguna 'Zhop'). Saya melakukannya jika berjaga-jaga jika situs itu dimatikan atau halaman dihilangkan ketika seseorang ribuan tahun mengakses postingan ini;)

Kovarian adalah ukuran dari seberapa banyak dua variabel berubah bersama. Bandingkan ini dengan Variance, yang hanya rentang di mana satu ukuran (atau variabel) bervariasi.

Dalam mempelajari pola-pola sosial, Anda mungkin berhipotesis bahwa orang kaya cenderung lebih berpendidikan, jadi Anda akan mencoba melihat seberapa dekat ukuran kekayaan dan pendidikan tetap bersama. Anda akan menggunakan ukuran kovarians untuk menentukan ini.

...

Saya tidak yakin apa yang Anda maksud ketika Anda bertanya bagaimana itu berlaku untuk statistik. Ini adalah salah satu ukuran yang diajarkan di banyak kelas statistik. Apakah maksud Anda, kapan Anda harus menggunakannya?

Anda menggunakannya ketika Anda ingin melihat berapa banyak dua atau lebih variabel yang berubah dalam hubungannya satu sama lain.

Pikirkan orang-orang dalam tim. Lihatlah bagaimana mereka berbeda di lokasi geografis dibandingkan satu sama lain. Ketika tim bermain atau berlatih, jarak antara anggota individu sangat kecil dan kami akan mengatakan mereka berada di lokasi yang sama. Dan ketika lokasi mereka berubah, itu berubah untuk semua individu bersama (katakanlah, bepergian dengan bus ke sebuah game). Dalam situasi ini, kita dapat mengatakan bahwa mereka memiliki tingkat kovarian yang tinggi. Tetapi ketika mereka tidak bermain, maka tingkat kovarians kemungkinan akan sangat rendah, karena mereka semua pergi ke tempat yang berbeda dengan kecepatan yang berbeda.

Jadi, Anda dapat memprediksi lokasi satu anggota tim, berdasarkan lokasi anggota tim lain ketika mereka berlatih atau bermain game dengan tingkat akurasi yang tinggi. Pengukuran kovarians akan mendekati 1, saya percaya. Tetapi ketika mereka tidak berlatih atau bermain, Anda akan memiliki peluang yang jauh lebih kecil untuk memprediksi lokasi satu orang, berdasarkan lokasi anggota tim. Itu akan mendekati nol, mungkin, meskipun tidak nol, karena kadang-kadang anggota tim akan menjadi teman, dan mungkin pergi ke suatu tempat bersama pada waktu mereka sendiri.

Namun, jika Anda memilih individu secara acak di Amerika Serikat, dan mencoba menggunakan salah satu dari mereka untuk memprediksi lokasi yang lain, Anda mungkin akan menemukan bahwa kovariannya nol. Dengan kata lain, sama sekali tidak ada hubungan antara satu lokasi orang yang dipilih secara acak di AS dan yang lainnya.

Menambahkan satu lagi (oleh 'CatofGrey') yang membantu menambah intuisi:

Dalam teori probabilitas dan statistik, kovarians adalah ukuran dari seberapa banyak dua variabel acak bervariasi bersama-sama (berbeda dari varians, yang mengukur seberapa banyak variabel tunggal bervariasi).

Jika dua variabel cenderung bervariasi bersama-sama (yaitu, ketika salah satu dari mereka di atas nilai yang diharapkan, maka variabel lain cenderung di atas nilai yang diharapkan juga), maka kovarians antara kedua variabel akan menjadi positif. Di sisi lain, jika salah satu dari mereka berada di atas nilai yang diharapkan dan variabel lainnya cenderung di bawah nilai yang diharapkan, maka kovarians antara kedua variabel akan negatif.

Keduanya bersama-sama membuat saya mengerti kovarian karena saya belum pernah memahaminya! Luar biasa !!

PhD
sumber
15
Walaupun deskripsi ini bersifat sugestif secara kualitatif, sayangnya mereka tidak lengkap: mereka tidak membedakan kovarians dari korelasi (deskripsi pertama tampaknya membingungkan keduanya, pada kenyataannya), mereka juga tidak mengeluarkan asumsi mendasar dari ko-variasi linear . Juga, tidak ada yang membahas aspek penting yang tergantung kovarians (linear) pada skala masing-masing variabel.
whuber
@whuber - setuju! Dan karenanya belum menandai milik saya sebagai jawabannya :) (belum;)
PhD
12

Saya sangat suka jawaban Whuber, jadi saya mengumpulkan lebih banyak sumber daya. Kovarian menggambarkan seberapa jauh variabel tersebar, dan sifat hubungan mereka.

Kovarian menggunakan persegi panjang untuk menggambarkan seberapa jauh pengamatan dari rata-rata pada grafik sebar:

  • Jika sebuah persegi panjang memiliki sisi panjang dan lebar tinggi atau sisi pendek dan lebar pendek, ini memberikan bukti bahwa kedua variabel bergerak bersama.

  • Jika persegi panjang memiliki dua sisi yang relatif panjang untuk variabel itu, dan dua sisi yang relatif pendek untuk variabel lain, pengamatan ini memberikan bukti bahwa variabel tidak bergerak bersama dengan sangat baik.

  • Jika persegi panjang berada di kuadran ke-2 atau ke-4, maka ketika satu variabel lebih besar dari rata-rata, yang lain kurang dari rata-rata. Peningkatan dalam satu variabel dikaitkan dengan penurunan yang lain.

Saya menemukan visualisasi keren di http://sciguides.com/guides/covariance/ , ini menjelaskan apa itu kovarians jika Anda hanya tahu artinya.

arthur.00
sumber
7
+1 Penjelasan yang bagus (terutama ringkasan satu kalimat pendahuluan). Tautannya menarik. Karena tidak memiliki arsip di mesin Wayback , kemungkinan baru. Karena itu sangat mirip dengan jawaban saya (tiga tahun), sampai pada pilihan merah untuk positif dan biru untuk hubungan negatif, saya menduga itu adalah turunan (tidak terdistribusi) dari materi di situs ini.
whuber
4
Tautan "visualisasi keren" telah mati ....
whuber
1
@MSIS Itu tidak mungkin untuk dipecahkan, karena ada sejumlah besar kemungkinan distribusi di lingkaran. Tetapi jika Anda mengacu pada distribusi seragam , tidak ada yang perlu dihitung, karena (seperti yang saya ingat berkomentar di thread Anda di stats.stackexchange.com/q/414365/919 ) koefisien korelasi harus sama dengan negatifnya sendiri, QED.
Whuber
1
@ MSIS Jika "metode" berarti "banding ke simetri," jawabannya adalah bahwa itu akan bekerja tetapi hasilnya tergantung pada bagaimana didistribusikan. Sebagai contoh, jika adalah variabel acak dengan simetris distribusi sekitar dengan momen keempat hingga, maka dan harus tidak berkorelasi. Sebagai contoh, jika memiliki simetris distribusi sekitar maka tidak ada yang umum dapat dikatakan tentang korelasi dan memang, bisa jadi ada nilai antara dan inklusif. XX0XX2X1,XX2:11
whuber
1
@ MSIS Biasanya, dengan tidak adanya distribusi eksplisit, dan hampir selalu dalam konteks matematika murni, kita mengasumsikan bahwa distribusi seragam dimaksudkan. Dalam kasus lingkaran geometris yang diparameterisasi oleh sudut peristiwa dasar adalah dari bentuk dan probabilitasnya samaa < α b ( ( b - a ) mod 2 π ) / ( 2 π ) .α,a<αb((ba)mod2π)/(2π).
whuber
10

Berikut adalah upaya lain untuk menjelaskan kovarian dengan gambar. Setiap panel pada gambar di bawah ini berisi 50 poin yang disimulasikan dari distribusi bivariat dengan korelasi antara x & y 0,8 dan varian seperti yang ditunjukkan pada label baris dan kolom. Kovarians ditampilkan di sudut kanan bawah setiap panel.

Kovarian yang berbeda, semua dengan korelasi = 0,8

Siapa pun yang tertarik untuk meningkatkan ini ... inilah kode R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))
Kevin Wright
sumber
10

Saya menyukai jawaban @whuber - sebelum saya hanya punya ide samar di benak saya tentang bagaimana kovarians dapat divisualisasikan, tetapi plot persegi itu jenius.

Namun karena rumus untuk kovarian melibatkan nilai tengah, dan pertanyaan awal OP menyatakan bahwa 'penerima' memahami konsep nilai rata-rata, saya pikir saya akan memiliki sedikit celah dalam mengadaptasi plot persegi panjang @ whuber untuk membandingkan setiap titik data dengan berarti x dan y, karena ini lebih mewakili apa yang terjadi dalam rumus kovarian. Saya pikir itu sebenarnya tampak cukup intuitif: "Grafik kovarian untuk variabel dengan korelasi berbeda"

Titik biru di tengah setiap plot adalah rata-rata x (x_mean) dan rata-rata y (y_mean).

Persegi empat membandingkan nilai x - x_mean dan y - y_mean untuk setiap titik data.

Persegi panjang berwarna hijau saat:

  • baik x dan y lebih besar dari artinya masing-masing
  • baik x dan y kurang dari artinya masing-masing

Kotak berwarna merah ketika:

  • x lebih besar dari x_mean tetapi y kurang dari y_mean
  • x kurang dari x_mean tetapi y lebih besar dari y_mean

Kovarian (dan korelasi) dapat sangat negatif dan sangat positif. Ketika grafik didominasi oleh satu warna lebih dari yang lain, itu berarti bahwa data sebagian besar mengikuti pola yang konsisten.

  • Jika grafik memiliki lebih banyak hijau daripada merah, itu berarti bahwa y umumnya meningkat ketika x bertambah.
  • Jika grafik memiliki lebih banyak merah daripada hijau, itu berarti bahwa y umumnya berkurang ketika x bertambah.
  • Jika grafik tidak didominasi oleh satu warna atau yang lain, itu berarti bahwa tidak ada banyak pola tentang bagaimana x dan y berhubungan satu sama lain.

Nilai aktual dari kovarians untuk dua variabel berbeda x dan y, pada dasarnya adalah jumlah dari semua area hijau dikurangi semua area merah, kemudian dibagi dengan jumlah total titik data - efektif rata-rata hijau-vs-kemerahan grafik .

Bagaimana itu terdengar / terlihat?

capohugo
sumber
3

Varians adalah tingkat perubahan acak yang dapat dilakukan sehubungan dengan nilai yang diharapkan Karena sifat stokastik proses yang mendasari variabel acak mewakili.

Kovarian adalah tingkat di mana dua variabel acak berbeda berubah sehubungan satu sama lain. Ini bisa terjadi ketika variabel acak didorong oleh proses dasar yang sama, atau turunannya. Entah proses yang diwakili oleh variabel acak ini saling memengaruhi, atau prosesnya sama tetapi salah satu variabel acak berasal dari yang lain.

Kingz
sumber
2

Saya hanya akan menjelaskan korelasi yang cukup intuitif. Saya akan mengatakan "Korelasi mengukur kekuatan hubungan antara dua variabel X dan Y. Korelasi adalah antara -1 dan 1 dan akan mendekati 1 dalam nilai absolut ketika hubungan kuat. Kovarian hanya korelasi dikalikan dengan standar deviasi dari dua variabel. Jadi sementara korelasi tidak berdimensi, kovarians adalah dalam produk unit untuk variabel X dan variabel Y.

Michael Chernick
sumber
10
Ini tampaknya tidak memadai karena tidak disebutkan linearitas. X dan Y bisa memiliki hubungan kuadratik yang kuat tetapi memiliki korelasi nol.
mark999
0

Dua variabel yang akan memiliki kovarians positif tinggi (korelasi) akan menjadi jumlah orang dalam ruangan, dan jumlah jari yang ada di ruangan. (Karena jumlah orang meningkat, kami berharap jumlah jari juga meningkat.)

Sesuatu yang mungkin memiliki kovarians negatif (korelasi) akan menjadi usia seseorang, dan jumlah folikel rambut di kepala mereka. Atau, jumlah jerawat di wajah seseorang (dalam kelompok usia tertentu), dan berapa banyak kencan yang mereka miliki dalam seminggu. Kami berharap orang-orang yang memiliki rambut lebih sedikit, dan orang-orang dengan lebih banyak jerawat memiliki lebih sedikit kurma .. Ini berkorelasi negatif.

Adam
sumber
2
Kovarian tidak harus dipertukarkan dengan korelasi - yang pertama sangat tergantung pada unit. Korelasi adalah angka antara -1 dan 1 skalar unit-less yang mewakili 'kekuatan' kovarian IMO dan itu tidak jelas dari jawaban Anda
PhD
Diturunkan sebagai jawaban menyiratkan bahwa kovarians dan korelasi dapat digunakan secara bergantian.
sapo_cosmico