Masalah dengan kovarian adalah sulit untuk membandingkan: ketika Anda menghitung kovarians dari serangkaian tinggi dan berat, seperti yang dinyatakan dalam (masing-masing) meter dan kilogram, Anda akan mendapatkan kovarians yang berbeda dari ketika Anda melakukannya di unit lain ( yang sudah memberikan masalah bagi orang yang melakukan hal yang sama dengan atau tanpa sistem metrik!), tetapi juga, akan sulit untuk mengetahui apakah (misalnya) tinggi dan berat 'kovari lebih' dari, katakanlah panjang jari kaki dan jari Anda , hanya karena 'skala' kovarians yang dihitung berbeda.
Solusi untuk ini adalah 'menormalkan' kovarians: Anda membagi kovarians dengan sesuatu yang mewakili keragaman dan skala pada kedua kovariat, dan berakhir dengan nilai yang dijamin antara -1 dan 1: korelasi. Apa pun unit variabel asli Anda, Anda akan selalu mendapatkan hasil yang sama, dan ini juga akan memastikan bahwa Anda dapat, pada tingkat tertentu, membandingkan apakah dua variabel 'berkorelasi' lebih dari dua lainnya, hanya dengan membandingkan korelasinya.
Catatan: di atas mengasumsikan bahwa pembaca sudah memahami konsep kovarian.
cm
, dan Y Anda ada di dalams
, maka Anda . Dan kemudian Anda bisa mengalikan hasilnya dengan faktor konversi satuan. Cobalah di R:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Persyaratan jenis pertanyaan ini menurut saya agak aneh. Berikut adalah konsep / rumus matematika , namun saya ingin membicarakannya dalam beberapa konteks yang sama sekali tidak memiliki simbol matematika. Saya juga berpikir harus dinyatakan bahwa aljabar aktual yang diperlukan untuk memahami formula, saya pikir, harus diajarkan kepada sebagian besar individu sebelum pendidikan tinggi (tidak diperlukan pemahaman tentang aljabar matriks, hanya aljabar sederhana yang cukup).
Jadi, pada awalnya alih-alih mengabaikan rumus dan membicarakannya dalam beberapa jenis analogi magis dan heuristik, mari kita lihat rumusnya dan mencoba menjelaskan masing-masing komponen dalam langkah-langkah kecil. Perbedaan dalam hal kovarians dan korelasi, ketika melihat formula, harus menjadi jelas. Sedangkan berbicara dalam hal analogi dan heuristik saya curiga akan mengaburkan dua konsep yang relatif sederhana dan perbedaan mereka dalam banyak situasi.
Jadi mari kita mulai dengan rumus untuk kovarians sampel (ini baru saja saya ambil dan adopsi dari wikipedia);
Untuk mempercepat semua orang, mari kita secara eksplisit mendefinisikan semua elemen dan operasi dalam formula.
Pada titik ini, saya mungkin memperkenalkan contoh sederhana, untuk menunjukkan elemen dan operasi untuk berbicara. Jadi misalnya, mari kita membuat tabel, di mana setiap baris sesuai dengan pengamatan (dan dan diberi label dengan tepat). Orang mungkin akan membuat contoh-contoh ini lebih spesifik (mis. Katakanlah mewakili usia dan mewakili berat), tetapi untuk diskusi kita di sini seharusnya tidak masalah.x y x y
Pada titik ini jika Anda merasa operasi penjumlahan dalam rumus mungkin belum sepenuhnya dipahami, Anda bisa memperkenalkannya lagi dalam konteks yang jauh lebih sederhana. Katakan saja sekarang bahwa sama dengan mengatakan dalam contoh ini;∑ni=1(xi)
Sekarang kekacauan itu harus dibereskan, dan kita dapat mengerjakan bagian kedua dari rumus, . Sekarang, dengan asumsi orang sudah tahu apa artinya, dan berdiri untuk, dan saya akan mengatakan, menjadi munafik dari komentar saya sendiri sebelumnya di posting, orang bisa merujuk ke mean dalam hal heuristik sederhana (misalnya tengah distribusi). Satu kemudian dapat mengambil proses ini satu operasi pada suatu waktu. Pernyataan(xi−x¯)(yi−y¯) x¯ y¯ (xi−x¯) hanya memeriksa penyimpangan / jarak antara setiap pengamatan, dan rata-rata semua pengamatan untuk atribut tertentu. Karenanya ketika pengamatan lebih jauh dari rata-rata, operasi ini akan diberi nilai yang lebih tinggi. Satu kemudian dapat merujuk kembali ke tabel contoh yang diberikan, dan hanya menunjukkan operasi pada vektor pengamatan.x
Operasi ini sama untuk vektor , tetapi hanya untuk penguatan Anda dapat menyajikan operasi itu juga.y
Sekarang, istilah dan tidak boleh ambigu, dan kita bisa pergi ke operasi berikutnya, mengalikan hasil ini bersama-sama, . Seperti gung tunjukkan dalam komentar, ini sering disebut produk silang (mungkin contoh yang berguna untuk memunculkan kembali jika seseorang memperkenalkan aljabar matriks dasar untuk statistik).(xi−x¯) (yi−y¯) (xi−x¯)⋅(yi−y¯)
Perhatikan apa yang terjadi ketika mengalikan, jika dua pengamatan keduanya jarak yang jauh di atas rata-rata, pengamatan yang dihasilkan akan memiliki nilai positif yang lebih besar (hal yang sama berlaku jika kedua pengamatan adalah jarak yang jauh di bawah rata-rata, seperti mengalikan dua negatif sama dengan positif). Juga perhatikan bahwa jika satu pengamatan tinggi di atas rata-rata dan yang lain jauh di bawah rata-rata, nilai yang dihasilkan akan besar (secara absolut) dan negatif (sebagai kali positif negatif sama dengan angka negatif). Akhirnya catat bahwa ketika suatu nilai sangat dekat dengan rata-rata untuk pengamatan yang manapun, mengalikan kedua nilai tersebut akan menghasilkan angka yang kecil. Sekali lagi kita bisa menyajikan operasi ini dalam sebuah tabel.
Sekarang jika ada ahli statistik di ruangan mereka harus mendidih dengan antisipasi pada saat ini. Kita dapat melihat semua elemen yang terpisah dari apa itu kovarian, dan bagaimana hal itu dihitung ikut berperan. Sekarang yang harus kita lakukan adalah merangkum hasil akhir pada tabel sebelumnya, dibagi dengan dan voila , kovarian seharusnya tidak lagi bersifat mistis (semua dengan hanya mendefinisikan satu simbol Yunani).n−1
Pada titik ini Anda mungkin ingin memperkuat dari mana asal 5, tetapi itu harus sesederhana merujuk kembali ke tabel dan menghitung jumlah pengamatan (mari kita tinggalkan perbedaan antara sampel dan populasi ke waktu lain).
Sekarang, kovarian dalam dan dari dirinya sendiri tidak memberi tahu kita banyak (itu bisa, tetapi pada titik ini tidak perlu untuk pergi ke contoh menarik tanpa menggunakan referensi magis yang tidak ditentukan kepada penonton). Dalam skenario kasus yang baik, Anda tidak perlu menjual mengapa kami harus peduli apa kovarians itu, dalam keadaan lain, Anda mungkin hanya berharap audiens Anda menjadi tawanan dan akan mengambil kata-kata Anda untuk itu. Tetapi, terus mengembangkan perbedaan antara apa itu kovarians dan apa korelasinya, kita bisa merujuk kembali ke rumus untuk korelasi. Untuk mencegah fobia simbol yunani mungkin hanya mengatakan adalah simbol umum yang digunakan untuk mewakili korelasi.ρ
Sekali lagi, untuk mengulangi, pembilang dalam rumus sebelumnya hanyalah kovarians seperti yang baru saja kita definisikan, dan penyebutnya adalah akar kuadrat dari produk varian dari masing-masing seri individual. Jika Anda perlu mendefinisikan varians itu sendiri, Anda bisa saja mengatakan varians itu sama dengan kovarians seri dengan dirinya sendiri (yaitu ). Dan semua konsep yang sama yang Anda perkenalkan dengan kovarians berlaku (yaitu jika suatu seri memiliki banyak nilai yang jauh dari rata-rata, ia akan memiliki varian yang tinggi). Mungkin perhatikan di sini bahwa seri tidak dapat memiliki varian negatif juga (yang secara logis harus mengikuti dari matematika yang disajikan sebelumnya).Cov(x,x)=Var(x)
Jadi satu-satunya komponen baru yang kami perkenalkan adalah dalam penyebutnya, . Jadi kita membagi kovarians yang baru saja kita hitung berdasarkan produk dari varian masing-masing seri. Orang bisa masuk ke dalam perawatan tentang mengapa membagi dengan akan selalu menghasilkan nilai antara -1 dan 1, tapi saya curiga ketidaksetaraan Cauchy-Schwarz harus diabaikan dari agenda untuk diskusi ini. Jadi sekali lagi, saya munafik dan menggunakan beberapa, mengambil kata saya untuk itu , tetapi pada titik ini kita dapat memperkenalkan semua alasan mengapa kita menggunakan koefisien korelasi. Satu kemudian dapat berhubungan pelajaran matematika ini kembali ke heuristik yang telah diberikan dalam laporan lain, seperti respon Peter Flom iniVar(x)Var(y) Var(x)Var(y)−−−−−−−−−−−√ ke salah satu pertanyaan lain. Sementara ini dikritik karena memperkenalkan konsep dalam hal pernyataan sebab akibat, pelajaran itu harus menjadi agenda di beberapa titik juga.
Saya mengerti dalam beberapa keadaan tingkat perawatan ini tidak sesuai. Senat membutuhkan ringkasan eksekutif . Dalam hal ini, Anda dapat merujuk kembali ke heuristik sederhana yang telah digunakan orang dalam contoh lain, tetapi Roma tidak dibangun dalam sehari. Dan kepada senat yang meminta ringkasan eksekutif, jika Anda memiliki waktu yang sangat sedikit mungkin Anda harus mengambil kata-kata saya untuk itu, dan membuang formalitas analogi dan poin-poin.
sumber
Korelasi (r) adalah kovarians (cov) dari variabel Anda (x & y) dibagi dengan (atau disesuaikan dengan, dengan kata lain) masing-masing standar deviasi mereka ( ).Var[x]Var[y]−−−−−−−−−−−√
Artinya, korelasi hanyalah representasi kovarians sehingga hasilnya harus terletak antara -1 (berkorelasi terbalik sempurna) dengan +1 (berkorelasi positif sempurna), mencatat bahwa nilai mendekati nol berarti dua variabel tidak berkorelasi.
Kovarian tidak terbatas dan tidak memiliki konteks ketika membandingkan dengan kovarian lainnya. Dengan menormalkan / menyesuaikan / menstandarisasi kovarian menjadi suatu korelasi, kumpulan data dapat dibandingkan dengan lebih mudah.
Seperti yang dapat Anda bayangkan, ada berbagai cara statistik (seperti kovarians) dapat dinormalisasi / distandarisasi. Rumus matematika untuk hubungan antara korelasi dan kovarian hanya mencerminkan penggunaan statistik konvensi (yaitu, menyesuaikan sesuai dengan standar deviasi mereka):
sumber
Jika Anda terbiasa dengan ide pemusatan dan standardisasi, x-xbar adalah untuk pusat x pada artinya. Hal yang sama berlaku untuk y. Jadi kovarian hanya memusatkan data. Korelasi, bagaimanapun, tidak hanya memusatkan data tetapi juga skala menggunakan standar deviasi (standardisasi). Penggandaan dan penjumlahan adalah produk titik dari dua vektor dan ini menunjukkan bagaimana paralel kedua vektor ini dibandingkan satu sama lain (proyeksi satu vektor ke yang lain). Pembagian (n-1) atau mengambil nilai yang diharapkan adalah skala untuk jumlah pengamatan. Pikiran?
sumber
Sejauh yang saya mengerti. Korelasi adalah versi kovarians yang "dinormalisasi".
sumber
Korelasi diskalakan antara -1 dan +1 tergantung pada apakah ada korelasi positif atau negatif, dan tidak berdimensi. Namun kovarians, berkisar dari nol, dalam kasus dua variabel independen, hingga Var (X), dalam kasus di mana dua set data sama. Unit COV (X, Y) adalah unit X kali unit Y.
sumber
The units of COV(X,Y) are the units of X times the units of Y.
,, peduli untuk menjelaskan?