... dengan asumsi bahwa saya dapat menambah pengetahuan mereka tentang varians secara intuitif ( Memahami "varians" secara intuitif ) atau dengan mengatakan: Ini adalah jarak rata-rata dari nilai data dari 'rata-rata' - dan karena varians berada dalam kuadrat unit, kami mengambil akar kuadrat untuk menjaga unit yang sama dan itu disebut standar deviasi.
Mari kita asumsikan ini banyak yang diartikulasikan dan (mudah-mudahan) dipahami oleh 'penerima'. Sekarang apa itu kovarians dan bagaimana seseorang menjelaskannya dalam bahasa Inggris sederhana tanpa menggunakan istilah / rumus matematika? (Yaitu, penjelasan intuitif.;)
Harap dicatat: Saya tahu rumus dan matematika di balik konsep. Saya ingin bisa 'menjelaskan' hal yang sama dengan cara yang mudah dimengerti, tanpa menyertakan matematika; yaitu, apa artinya 'kovarians'?
Jawaban:
Terkadang kita bisa "menambah pengetahuan" dengan pendekatan yang tidak biasa atau berbeda. Saya ingin balasan ini dapat diakses oleh anak-anak TK dan juga bersenang-senang, jadi semua orang mengeluarkan krayon Anda!
Diberikan data berpasangan , gambar sebar mereka. (Para siswa yang lebih muda mungkin membutuhkan guru untuk menghasilkan ini untuk mereka. :-) Setiap pasangan poin , dalam plot itu menentukan sebuah persegi panjang: itu adalah kotak terkecil, yang sisinya sejajar dengan kapak, berisi titik-titik itu. Jadi poinnya ada di sudut kanan atas dan kiri bawah (hubungan "positif") atau titik di sudut kiri atas dan kanan bawah (hubungan "negatif").(x,y) (xi,yi) (xj,yj)
Gambarlah semua persegi panjang yang mungkin. Warnai mereka secara transparan, membuat persegi positif merah (katakanlah) dan persegi negatif "anti-merah" (biru). Dengan cara ini, di mana pun persegi panjang tumpang tindih, warnanya akan ditingkatkan ketika mereka sama (biru dan biru atau merah dan merah) atau membatalkan ketika mereka berbeda.
( Dalam ilustrasi persegi panjang positif (merah) dan negatif (biru) ini, tumpang tindih seharusnya berwarna putih; sayangnya, perangkat lunak ini tidak memiliki warna "anti-merah" yang sebenarnya. Tumpang tindih ini berwarna abu-abu, sehingga akan menggelapkan warna. plot, tetapi secara keseluruhan jumlah bersih merah sudah benar. )
Sekarang kita siap untuk penjelasan kovarian.
Kovarians adalah jumlah bersih merah dalam plot (memperlakukan biru sebagai nilai negatif).
Berikut adalah beberapa contoh dengan 32 titik binormal yang diambil dari distribusi dengan kovarian yang diberikan, dipesan dari paling negatif (biru) ke paling positif (merah).
Mereka ditarik pada kapak biasa untuk membuat mereka sebanding. Persegi panjang dengan ringan diuraikan untuk membantu Anda melihatnya. Ini adalah versi asli (2019) yang diperbarui: ia menggunakan perangkat lunak yang benar membatalkan warna merah dan cyan dalam persegi panjang yang tumpang tindih.
Mari kita simpulkan beberapa sifat kovarians. Memahami sifat-sifat ini akan dapat diakses oleh siapa saja yang telah benar-benar menggambar beberapa persegi panjang. :-)
Bilinearitas. Karena jumlah merah tergantung pada ukuran plot, kovarians berbanding lurus dengan skala pada sumbu x dan dengan skala pada sumbu y.
Korelasi. Kovarian meningkat ketika titik mendekati garis miring ke atas dan menurun saat titik mendekati garis miring ke bawah. Ini karena dalam kasus sebelumnya sebagian besar persegi panjang positif dan dalam kasus terakhir, sebagian besar negatif.
Hubungan dengan asosiasi linier. Karena asosiasi non-linear dapat membuat campuran persegi panjang positif dan negatif, mereka menyebabkan kovarian yang tidak dapat diprediksi (dan tidak terlalu berguna). Asosiasi linier dapat sepenuhnya ditafsirkan dengan menggunakan dua penokohan sebelumnya.
Kepekaan terhadap pencilan. Sebuah pencilan geometris (satu titik menjauhi massa) akan membuat banyak persegi panjang besar yang berasosiasi dengan semua titik lainnya. Itu saja dapat membuat jumlah bersih positif atau negatif merah dalam gambar keseluruhan.
Secara kebetulan, definisi kovarian ini berbeda dari yang biasa hanya dengan konstanta proporsionalitas universal (terlepas dari ukuran kumpulan data). Cenderung matematis tidak akan kesulitan melakukan demonstrasi aljabar bahwa rumus yang diberikan di sini selalu dua kali kovarians biasa.
sumber
Untuk menguraikan komentar saya, saya biasa mengajar kovarians sebagai ukuran variasi rata-rata (rata-rata) antara dua variabel, misalnya dan .yx y
Sangat berguna untuk mengingat rumus dasar (mudah dijelaskan, tidak perlu berbicara tentang harapan matematika untuk kursus pengantar):
sehingga kita melihat dengan jelas bahwa setiap pengamatan, , dapat berkontribusi positif atau negatif terhadap kovarians, tergantung pada produk deviasi mereka dari rata-rata dua variabel, dan . Perhatikan bahwa saya tidak berbicara tentang besarnya di sini, tetapi hanya tentang tanda kontribusi pengamatan ke-i.ˉ x ˉ y(xi,yi) x¯ y¯
Inilah yang saya gambarkan dalam diagram berikut. Data buatan dihasilkan menggunakan model linier (kiri, ; kanan, , di mana diambil dari distribusi gaussian dengan rata-rata nol dan , dan dari distribusi seragam pada interval ).y=1.2x+ε y=0.1x+ε ε SD=2 x [0,20]
Bilah vertikal dan horizontal masing-masing mewakili rata-rata dan . Itu berarti bahwa alih-alih "melihat pengamatan individu" dari asal , kita dapat melakukannya dari . Ini sama dengan terjemahan pada sumbu x dan y. Dalam sistem koordinat baru ini, setiap pengamatan yang terletak di kuadran kanan atas atau kiri bawah berkontribusi positif terhadap kovarians, sedangkan pengamatan yang terletak di dua kuadran lain berkontribusi negatif terhadapnya. Dalam kasus pertama (kiri), kovarians sama dengan 30,11 dan distribusi di empat kuadran diberikan di bawah ini:x y (0,0) (x¯,y¯)
Jelas, ketika di atas rata-rata, maka lakukan sesuai (wrt. ). Eye-balling bentuk awan 2D titik, ketika nilai meningkatkan nilai cenderung meningkat juga. (Tapi ingat kita juga bisa menggunakan fakta bahwa ada hubungan yang jelas antara kovarians dan kemiringan garis regresi, yaitu .)xi yi y¯ x y b=Cov(x,y)/Var(x)
Dalam kasus kedua (kanan, sama ), kovarians sama dengan 3,54 dan distribusi lintas kuadran lebih "homogen" seperti yang ditunjukkan di bawah ini:xi
Dengan kata lain, ada peningkatan jumlah kasus di mana dan tidak covary dalam arah yang sama wrt. cara mereka.xi yi
Perhatikan bahwa kita dapat mengurangi kovarians dengan menskalakan atau . Di panel kiri, kovarians (atau ) dikurangi sepuluh kali lipat (3,01). Karena unit-unit pengukuran dan penyebaran dan (relatif terhadap kemampuannya) menyulitkan untuk menafsirkan nilai kovarians dalam istilah absolut, kami biasanya skala kedua variabel dengan standar deviasi mereka dan mendapatkan koefisien korelasi. Ini berarti bahwa selain memusatkan kembali scatterplot key ( x / 10 , y ) ( x , y / 10 )x y (x/10,y) (x,y/10) x y (x,y) (x¯,y¯) kami juga menskala unit x dan y dalam hal standar deviasi, yang mengarah ke ukuran yang lebih dapat ditafsirkan dari kovarisasi linier antara dan .x y
sumber
Kovarian adalah ukuran seberapa banyak satu variabel naik ketika variabel lainnya naik.
sumber
Aku sedang menjawab pertanyaan saya sendiri, tapi saya pikir itu akan menjadi besar untuk orang-orang datang di posting ini untuk memeriksa beberapa penjelasan di halaman ini .
Saya memparafrasekan salah satu jawaban yang diartikulasikan dengan sangat baik (oleh pengguna 'Zhop'). Saya melakukannya jika berjaga-jaga jika situs itu dimatikan atau halaman dihilangkan ketika seseorang ribuan tahun mengakses postingan ini;)
Menambahkan satu lagi (oleh 'CatofGrey') yang membantu menambah intuisi:
Keduanya bersama-sama membuat saya mengerti kovarian karena saya belum pernah memahaminya! Luar biasa !!
sumber
Saya sangat suka jawaban Whuber, jadi saya mengumpulkan lebih banyak sumber daya. Kovarian menggambarkan seberapa jauh variabel tersebar, dan sifat hubungan mereka.
Kovarian menggunakan persegi panjang untuk menggambarkan seberapa jauh pengamatan dari rata-rata pada grafik sebar:
Jika sebuah persegi panjang memiliki sisi panjang dan lebar tinggi atau sisi pendek dan lebar pendek, ini memberikan bukti bahwa kedua variabel bergerak bersama.
Jika persegi panjang memiliki dua sisi yang relatif panjang untuk variabel itu, dan dua sisi yang relatif pendek untuk variabel lain, pengamatan ini memberikan bukti bahwa variabel tidak bergerak bersama dengan sangat baik.
Jika persegi panjang berada di kuadran ke-2 atau ke-4, maka ketika satu variabel lebih besar dari rata-rata, yang lain kurang dari rata-rata. Peningkatan dalam satu variabel dikaitkan dengan penurunan yang lain.
Saya menemukan visualisasi keren di http://sciguides.com/guides/covariance/ , ini menjelaskan apa itu kovarians jika Anda hanya tahu artinya.
sumber
Berikut adalah upaya lain untuk menjelaskan kovarian dengan gambar. Setiap panel pada gambar di bawah ini berisi 50 poin yang disimulasikan dari distribusi bivariat dengan korelasi antara x & y 0,8 dan varian seperti yang ditunjukkan pada label baris dan kolom. Kovarians ditampilkan di sudut kanan bawah setiap panel.
Siapa pun yang tertarik untuk meningkatkan ini ... inilah kode R:
sumber
Saya menyukai jawaban @whuber - sebelum saya hanya punya ide samar di benak saya tentang bagaimana kovarians dapat divisualisasikan, tetapi plot persegi itu jenius.
Namun karena rumus untuk kovarian melibatkan nilai tengah, dan pertanyaan awal OP menyatakan bahwa 'penerima' memahami konsep nilai rata-rata, saya pikir saya akan memiliki sedikit celah dalam mengadaptasi plot persegi panjang @ whuber untuk membandingkan setiap titik data dengan berarti x dan y, karena ini lebih mewakili apa yang terjadi dalam rumus kovarian. Saya pikir itu sebenarnya tampak cukup intuitif:
Titik biru di tengah setiap plot adalah rata-rata x (x_mean) dan rata-rata y (y_mean).
Persegi empat membandingkan nilai x - x_mean dan y - y_mean untuk setiap titik data.
Persegi panjang berwarna hijau saat:
Kotak berwarna merah ketika:
Kovarian (dan korelasi) dapat sangat negatif dan sangat positif. Ketika grafik didominasi oleh satu warna lebih dari yang lain, itu berarti bahwa data sebagian besar mengikuti pola yang konsisten.
Nilai aktual dari kovarians untuk dua variabel berbeda x dan y, pada dasarnya adalah jumlah dari semua area hijau dikurangi semua area merah, kemudian dibagi dengan jumlah total titik data - efektif rata-rata hijau-vs-kemerahan grafik .
Bagaimana itu terdengar / terlihat?
sumber
Varians adalah tingkat perubahan acak yang dapat dilakukan sehubungan dengan nilai yang diharapkan Karena sifat stokastik proses yang mendasari variabel acak mewakili.
Kovarian adalah tingkat di mana dua variabel acak berbeda berubah sehubungan satu sama lain. Ini bisa terjadi ketika variabel acak didorong oleh proses dasar yang sama, atau turunannya. Entah proses yang diwakili oleh variabel acak ini saling memengaruhi, atau prosesnya sama tetapi salah satu variabel acak berasal dari yang lain.
sumber
Saya hanya akan menjelaskan korelasi yang cukup intuitif. Saya akan mengatakan "Korelasi mengukur kekuatan hubungan antara dua variabel X dan Y. Korelasi adalah antara -1 dan 1 dan akan mendekati 1 dalam nilai absolut ketika hubungan kuat. Kovarian hanya korelasi dikalikan dengan standar deviasi dari dua variabel. Jadi sementara korelasi tidak berdimensi, kovarians adalah dalam produk unit untuk variabel X dan variabel Y.
sumber
Dua variabel yang akan memiliki kovarians positif tinggi (korelasi) akan menjadi jumlah orang dalam ruangan, dan jumlah jari yang ada di ruangan. (Karena jumlah orang meningkat, kami berharap jumlah jari juga meningkat.)
Sesuatu yang mungkin memiliki kovarians negatif (korelasi) akan menjadi usia seseorang, dan jumlah folikel rambut di kepala mereka. Atau, jumlah jerawat di wajah seseorang (dalam kelompok usia tertentu), dan berapa banyak kencan yang mereka miliki dalam seminggu. Kami berharap orang-orang yang memiliki rambut lebih sedikit, dan orang-orang dengan lebih banyak jerawat memiliki lebih sedikit kurma .. Ini berkorelasi negatif.
sumber