Jika A dan B berkorelasi dengan C, mengapa A dan B tidak selalu berkorelasi?

62

Saya tahu secara empiris itulah masalahnya. Saya baru saja mengembangkan model yang mengalami teka-teki ini. Saya juga curiga itu belum tentu jawaban ya / tidak. Maksud saya jika kedua A dan B berkorelasi dengan C, ini mungkin memiliki beberapa implikasi mengenai korelasi antara A dan B. Tapi, implikasi ini mungkin lemah. Ini mungkin hanya tanda arah dan tidak ada yang lain.

Inilah yang saya maksud ... Katakanlah A dan B keduanya memiliki korelasi 0,5 dengan C. Karena itu, korelasi antara A dan B bisa jadi 1,0. Saya pikir itu juga bisa 0,5 atau bahkan lebih rendah. Tapi, saya pikir itu tidak mungkin negatif. Apakah kamu setuju dengan itu?

Juga, apakah ada implikasi jika Anda mempertimbangkan Koefisien Korelasi Pearson standar atau sebaliknya Koefisien Korelasi Spearman (pangkat)? Pengamatan empiris saya baru-baru ini dikaitkan dengan Koefisien Korelasi Spearman.

correlation cross-correlation Sympa
sumber

38

Contohnya adalah untuk mengambil

,

, dan

. Kita bisa mengambil

dan

untuk mandiri, namun keduanya

dan

berkorelasi (positif, Pearson) dengan

.

A = X

$A=X$

B = Y

$B=Y$

C = X + Y

$C=X+Y$

X

$X$

Y

$Y$

A

$A$

B

$B$

C

$C$

1

Terima kasih, itu sebenarnya komentar yang bagus. Singkat, tetapi menangkap esensi dari alasan mengapa demikian.

Sympa

53

Karena korelasi adalah properti matematika dari distribusi multivariat, beberapa wawasan dapat murni diperoleh melalui perhitungan, terlepas dari asal statistik dari distribusi tersebut.

Untuk korelasi Pearson , mempertimbangkan variabel multinormal , , . Ini berguna untuk dikerjakan karena setiap matriks pasti non-negatif sebenarnya adalah matriks kovarians dari beberapa distribusi multinormal, dengan demikian menyelesaikan pertanyaan keberadaan. Jika kita berpegang pada matriks dengan pada diagonal, entri off-diagonal dari matriks kovarians akan menjadi korelasinya. Menulis korelasi dan sebagai , korelasi dan sebagai , dan korelasi dan sebagai $X$ $Y$ $Z$ $1$ $X$ $Y$ $\rho$ $Y$ $Z$ $\tau$ $X$ $Z$ , kami menghitungnya, $\sigma$

(karena ini adalah penentu matriks korelasi dan tidak boleh negatif). $1 + 2 \rho \sigma \tau - \left(\rho^2 + \sigma^2 + \tau^2\right) \ge 0$
Ketika ini menyiratkan bahwa . Dengan kata lain: ketika dan besarnya besar, dan harus memiliki korelasi nol. $\sigma = 0$ $\rho^2 + \tau^2 \le 1$ $\rho$ $\tau$ $X$ $Z$
Jika , maka setiap nilai non-negatif (antara dan tentu saja) adalah mungkin. $\rho^2 = \tau^2 = 1/2$ $\sigma$ $0$ $1$
Ketika , nilai negatif diijinkan. Misalnya, ketika , bisa dimana saja antara dan . $\rho^2 + \tau^2 \lt 1$ $\sigma$ $\rho = \tau = 1/2$ $\sigma$ $-1/2$ $1$

Pertimbangan ini menyiratkan memang ada beberapa kendala pada korelasi timbal balik. Kendala (yang hanya bergantung pada kepastian non-negatif dari matriks korelasi, bukan pada distribusi variabel yang sebenarnya) dapat diperketat tergantung pada asumsi tentang distribusi univariat. Misalnya, mudah untuk melihat (dan membuktikan) bahwa ketika distribusi dan tidak berada dalam keluarga skala lokasi yang sama, korelasinya harus benar - benar berukuran kurang dari . (Bukti: korelasi menyiratkan dan secara linear terkait sebagai) $X$ $Y$ $1$ $\pm 1$ $X$ $Y$

Sejauh korelasi peringkat Spearman berjalan, pertimbangkan tiga pengamatan trivariat , , dan dari . Mereka saling rank korelasi adalah , , dan . Dengan demikian bahkan tanda korelasi peringkat $(1,1,2)$ $(2,3,1)$ $(3,2,3)$ $(X, Y, Z)$ $1/2$ $1/2$ $-1/2$ dan dapat menjadi kebalikan dari tanda-tanda korelasi dari dan dan dan . $Y$ $Z$ $X$ $Y$ $X$ $Z$

whuber
sumber

whuber, apa itu "variabel multinormal"?

Sympa

2

en.wikipedia.org/wiki/Multivariate_normal_distribution

whuber

Seperti biasa, penjelasan paling menyeluruh Anda mendapatkan tanda centang "Jawaban Terbaik" yang memang layak.

Sympa

@ Singa Singa Anda sangat baik. Saya senang membaca semua jawaban untuk pertanyaan ini (dan menandai semuanya).

Whuber

88

Saya sedang dalam perjalanan memancing tahunan sekarang. Ada korelasi antara waktu hari saya ikan dan jumlah ikan yang saya tangkap. Ada juga korelasi antara ukuran umpan yang saya gunakan dan jumlah ikan yang saya tangkap. Tidak ada korelasi antara ukuran umpan dan waktu dalam sehari.

Kemangi
sumber

Basil, aku menyukainya! +1 untuk penjelasan bahasa Inggris yang sederhana.

Sympa

Terbaik. Menjawab. Di stats.stackexchange. Pernah

Chris Beeley

1

Ini menggambarkan kasus di mana korelasi rendah untuk memulai, tetapi tidak menjelaskan kasus di mana korelasi lebih tinggi. Jika ada korelasi 80% dengan waktu sehari, dan ada korelasi 80% dengan ukuran umpan, saya dapat menjamin bahwa Anda menggunakan umpan yang lebih besar di siang hari!

user35581

2

@ user35581 tidak, Anda tidak dapat - Anda melewatkan seluruh intinya. Setiap jam dia bisa memancing sekali dengan umpan kecil dan sekali dengan umpan besar. Ia masih dapat menangkap lebih banyak ikan selama bagian-bagian tertentu hari (korelasi 80%) dan menangkap lebih banyak ikan dengan umpan yang lebih besar (korelasi 80%) dan ada 0 korelasi antara ukuran umpan yang ia gunakan dan waktu hari. Bahkan bisa menjadi korelasi negatif jika dia menggunakan umpan yang lebih besar lebih sering selama waktu-waktu sibuk untuk mengkompensasi waktu yang buruk dalam sehari. Jadi Anda benar-benar tidak tahu apa-apa tentang korelasi antara waktu dan ukuran umpan.

rysqui

2

@rysqui maaf, komentar saya kurang bagus, tetapi poin yang saya coba sampaikan adalah: ketika korelasi antara fitur dan target menjadi sangat tinggi, maka fitur Anda harus dikorelasikan juga. Jadi jika Anda memiliki korelasi sempurna antara waktu hari dan ukuran tangkapan, dan korelasi sempurna antara ukuran umpan dan ukuran tangkapan, maka Anda juga harus memiliki korelasi sempurna antara ukuran umpan dan waktu dalam sehari, maka pernyataan terakhir "Anda menggunakan umpan yang lebih besar di siang hari". Perlu diingat bahwa ini adalah kasus tepi!

user35581

20

Korelasi adalah kosinus sudut antara dua vektor. Dalam situasi yang dijelaskan, (A, B, C) adalah tiga kali pengamatan, dibuat n kali, setiap pengamatan menjadi bilangan real. Korelasi antara A dan B adalah kosinus sudut antara dan diukur dalam ruang euclidean n-dimensi. Jadi situasi kita berkurang dengan mempertimbangkan 3 vektor , dan $V_A=A-E(A)$ $V_B=B-E(B)$ $V_A$ $V_B$ $V_C$ dalam ruang n dimensi. Kami memiliki 3 pasang vektor dan karenanya 3 sudut. Jika dua sudutnya kecil (korelasi tinggi) maka yang ketiga juga akan kecil. Tetapi untuk mengatakan "berkorelasi" tidak banyak pembatasan: itu berarti bahwa sudutnya antara 0 dan . Secara umum ini tidak memberikan batasan sama sekali pada sudut ketiga. Dengan kata lain, mulailah dengan sudut kurang dari antara dan (korelasi apa pun kecuali -1). Mari membagi dua sudut antara dan . Kemudian C akan dikorelasikan dengan A dan B. $\pi/2$ $\pi$ $V_A$ $V_B$ $V_C$ $V_A$ $V_B$

David Epstein
sumber

Korelasi +1 dalam hal sudut antara vektor multi-dimensi intuitif bagi saya.

Petrus Theron

2

Untuk referensi pembaca masa depan, saya memperluas jawaban geometrik ini (dengan gambar!) Di utas berikut: talkstats.com/showthread.php/…

Jake Westfall

18

Sebagai tambahan untuk jawaban whuber: Formula yang disajikan

. $1 + 2 \rho \sigma \tau - \left(\rho^2 + \sigma^2 + \tau^2\right) \ge 0$

dapat diubah menjadi ketidaksetaraan berikut (Olkin, 1981):

$\sigma\tau - \sqrt{(1-\sigma^2)(1-\tau^2)} \le \rho \le \sigma\tau + \sqrt{(1-\sigma^2)(1-\tau^2)}$

Sebuah representasi grafis dari batas atas dan bawah untuk terlihat seperti: $\rho$

masukkan deskripsi gambar di sini

Olkin, I. (1981). Batasan rentang untuk matriks korelasi momen-produk. Psychometrika, 46, 469-472. doi: 10.1007 / BF02293804

Felix S
sumber

Adakah yang bisa memberi tahu saya jika beberapa contoh ini adalah distribusi multivariat yang memiliki distribusi marginal spesifik yang membatasi rentang korelasi yang mungkin antar komponen? Itu berarti korelasi tidak dapat mengambil rentang penuh dari -1 hingga 1. Saya ingat bahwa Frechet setidaknya satu orang yang mengembangkan ini pada 1950-an. Saat saya mencari literatur hari ini saya pikir mereka sekarang disebut kopula Frechet.

Michael Chernick

14

Saya pikir lebih baik untuk bertanya "mengapa mereka HARUS berkorelasi?" atau, mungkin "Mengapa harus ada korelasi khusus?"

Kode R berikut menunjukkan kasus di mana x1 dan x2 keduanya berkorelasi dengan Y, tetapi memiliki 0 korelasi satu sama lain

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

Korelasi dengan Y dapat dibuat lebih kuat dengan mengurangi 0,3 menjadi 0,1 atau apa pun

Peter Flom - Pasang kembali Monica
sumber

Sayangnya, saya bukan pengguna R. Jadi, kode di atas kurang berarti bagi saya daripada artinya bagi Anda.

Sympa

2

x_{1}

$x_1$

x_{2}

$x_2$

y = 3 x_{1} + 2 x_{2}

$y = 3x_1 + 2x_2$

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

14

Saya akan menyerahkan demonstrasi statistik kepada mereka yang lebih cocok daripada saya untuk itu ... tetapi secara intuitif mengatakan bahwa peristiwa A menghasilkan proses X yang berkontribusi pada pembuatan acara C. Kemudian A berkorelasi dengan C (melalui X). B, di sisi lain menghasilkan Y, yang juga membentuk C. Oleh karena itu A berkorelasi dengan C, B berkorelasi dengan C tetapi A dan B tidak berkorelasi.

nico
sumber

1

@Bagus. Saya pikir maksud Anda "A dan B tidak berkorelasi" di bagian terakhir dari kalimat terakhir Anda.

suncoolsu

Ya, Nico dengan koreksi suncoolsu ... ini adalah penjelasan yang cukup bagus. Anda sedang menjelaskan Analisis Jalur secara parsial.

Sympa

Ya, maaf, saya terlibat dengan surat-surat;)

nico

1

Bagi mereka yang menginginkan intuisi, korelasi dapat dilihat sebagai kosinus dari beberapa sudut. Jadi, pertimbangkan tiga vektor dalam 3D, misalkan A, B, dan C, masing-masing sesuai dengan satu variabel. Pertanyaannya adalah untuk menentukan rentang sudut yang mungkin antara A dan C ketika sudut antara A dan B serta sudut antara B et C diketahui. Untuk itu, Anda dapat bermain dengan alat online tanpa menginstal perangkat lunak apa pun. Cukup buka halaman http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php

S. Piérard
sumber

0

Mari kita ambil satu contoh:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Untuk beberapa x, A dan B akan memiliki korelasi yang signifikan, demikian pula A dan C juga akan memiliki korelasi yang signifikan tetapi korelasi B dan C tidak akan signifikan.

Jadi, itu tidak selalu benar bahwa jika A dan B berkorelasi dan A dan C berkorelasi maka B dan C juga berkorelasi.

Catatan: Untuk pemahaman mendalam, Silakan pikirkan contoh ini pada data besar.

Abhishek Anand
sumber

Pernyataan ini secara umum tidak benar.

dan

B

$B$

C

$C$

x 1

$x1$

x 6

$x6$

A

$A$

B

$B$

C

$C$

x 1

$x1$

x 9

$x9$

Saya merasa nyaman dengan jawaban Abhishek Anand karena pada akhirnya semuanya berkorelasi dengan yang lainnya sampai taraf tertentu. Dan, saya suka cara dia mengukurnya dalam hal signifikansi statistik. Setelah Anda menggunakan kerangka kerja itu, cukup jelas bahwa jika A dan B secara statistik berkorelasi signifikan dengan C, baik A atau B mungkin tidak secara statistik berkorelasi secara signifikan (menggunakan kerangka kerja sebenarnya dari pertanyaan awal saya). Saya pikir curhat diagram dapat membuat penjelasan visual yang luar biasa dari konsep itu.

Sympa

@whuber aku setuju denganmu. Ini hanya satu contoh contoh yang menjelaskan, mengapa itu tidak perlu

Abhishek Anand

Tidak apa-apa - tetapi Anda tampaknya memiliki kesalahpahaman tentang apa korelasi antara vektor-vektor ini. Tak satu pun dari pernyataan yang Anda buat tentang koefisien korelasi dari vektor-vektor ini secara umum benar.

whuber

Jika A dan B berkorelasi dengan C, mengapa A dan B tidak selalu berkorelasi?

Jawaban: