Koefisien korelasi Pearson dihitung menggunakan rumus . Bagaimana rumus ini mengandung informasi bahwa kedua varian dan berkorelasi atau tidak? Atau, bagaimana kita mendapatkan rumus ini untuk koefisien korelasi?
sumber
Koefisien korelasi Pearson dihitung menggunakan rumus . Bagaimana rumus ini mengandung informasi bahwa kedua varian dan berkorelasi atau tidak? Atau, bagaimana kita mendapatkan rumus ini untuk koefisien korelasi?
Yang penting adalah . Penyebut adalah untuk menghilangkan satuan ukuran (jika katakan diukur dalam meter dan dalam kilogram maka diukur dalam meter-kilogram yang sulit untuk memahami) dan untuk standardisasi ( terletak antara -1 dan 1 nilai variabel apa pun yang Anda miliki).
Sekarang kembali ke . Ini menunjukkan bagaimana variabel bervariasi bersama tentang rata-rata mereka, maka co-varians . Mari kita ambil contoh.
Garis ditarik pada sarana sampel dan . Poin di sudut kanan atas adalah tempat dan berada di atas rata-rata dan keduanya dan positif. Poin di sudut kiri bawah berada di bawah kemampuannya. Dalam kedua kasus, produk positif. Sebaliknya kiri atas dan kanan bawah adalah area di mana produk ini negatif.
Sekarang ketika menghitung covariance dalam contoh ini poin yang memberikan produk positif mendominasi, menghasilkan kovarians positif. Kovarians ini lebih besar ketika poin disejajarkan lebih dekat ke garis yang dapat dibayangkan melintasi titik .
Sebagai catatan terakhir, kovarians hanya menunjukkan kekuatan hubungan linier . Jika hubungan tidak linier, kovarian tidak dapat mendeteksinya.
covariance shows only the strength of a linear relationship
Ini tidak benar. Cov sensitif terhadap kedua kekuatan linearitas dan besarnya variasi. Ambil X dan Y, yang terkait erat secara linier. Kemudian tarik dua titik ekstrem dalam X, untuk memperbesar var (X). Awan bivariat tidak linear lagi - itu hanya monoton; tetap saja, cov (X, Y) menjadi lebih besar! Namun, jika sekarang kita mengembalikan jumlah var (X) + var (Y) ke jumlah awal, cov (X, Y) akan turun di bawah, dan di bawah nilai awal, mencerminkan fakta bahwa kita sebelumnya mengganggu linearitas.Jika, dalam rumus yang Anda tampilkan, Anda menghapus 'pemisahan' dari ketiga istilah, cov (X, Y) , var (X) dan var (Y) oleh n-1 , Anda mendapatkan rumus yang lebih dasar untuk r : , di mana SCP adalah "jumlah produk silang" dan SS adalah "jumlah kuadrat". Secara umum, ini adalah formula untuk cosinus . Tetapi karena X dan Y berpusat ("jumlah produk silang penyimpangan" dan "jumlah kuadrat penyimpangan"), ia menjadi rumus untuk r , - r adalah kosinus antara variabel terpusat.SCP(X,Y)SS(X)√SS(Y)√
Sekarang, cosinus adalah ukuran proporsionalitas ; cos (X, Y) = 1 kapan dan hanya ketika Xi = kYi , saat itulah semua poin ( i ) terletak pada garis lurus yang berasal dari asal sistem koordinat X vs Y. Jika salah satu garis tidak datang melalui titik asal atau titik berangkat dari garis lurus cos akan menjadi lebih kecil. Karena Pearson r adalah cos dari awan yang telah berpusat pada sumbu X dan Y , garis pasti datang melalui titik asal; dan karenanya hanya titik keberangkatan dari berbaring di garis lurus dapat mengurangi r : r adalah ukuranlinearitas .
sumber
Jika r = 1, ada korelasi linier sempurna, jika r = -1 ada korelasi linear negatif sempurna, jika r = 0, tidak ada korelasi linier. Alasan kami membagi dengan standar deviasi X dan Y adalah untuk mendapatkan ukuran yang tidak tergantung pada skala.
Lihat utas ini untuk jawaban yang lebih terperinci.
sumber