Mengapa independensi menyiratkan nol korelasi?

16

Pertama-tama, saya tidak menanyakan ini:

Mengapa nol korelasi tidak menyiratkan independensi?

Ini ditujukan (agak baik) di sini: /math/444408/why-does-zero-correlation-not-imply-independence

Yang saya tanyakan adalah kebalikannya ... katakanlah dua variabel sepenuhnya independen satu sama lain.

Tidak bisakah mereka memiliki sedikit korelasi secara kebetulan?

Bukankah seharusnya ... independensi menyiratkan korelasi SANGAT KECIL?

Joshua Ronis
sumber
5
Bahkan variabel independen akan hampir selalu memiliki korelasi SAMPLE non-nol, meskipun kemungkinan akan tetap mendekati nol.
jsk
10
Seperti yang ditunjukkan oleh @jsk, Anda mungkin mengacaukan korelasi sampel dengan korelasi yang diharapkan
David
1
@ David bisa Anda jelaskan? Saya masih sangat pemula dalam statistik.
Joshua Ronis
3
@JoshuaRonis Korelasi sampel adalah korelasi yang Anda amati ketika bekerja dengan banyak data. Anda menggunakannya untuk mendapatkan ide tentang apa korelasi "benar" antara dua variabel. Semakin besar sampel, semakin baik estimasi yang Anda dapatkan. Misalnya, korelasi antara hasil dua dadu bersifat independen, oleh karena itu tidak berkorelasi, meskipun jika Anda menggulungnya sepuluh kali, Anda mungkin mendapatkan korelasi (karena kebetulan acak). Namun harap disadari bahwa tidak ada preferensi untuk korelasi positif atau negatif. (yaitu Anda memiliki kesempatan yang sama untuk masing-masing)
David
1
Bukan penipuan tetapi diskusi terkait: Apakah korelasi non-nol menyiratkan ketergantungan?
SecretAgentMan

Jawaban:

36

Dengan definisi koefisien korelasi, jika dua variabel independen, korelasinya adalah nol. Jadi, tidak mungkin ada korelasi secara kebetulan!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Jika X dan Y adalah independen, berarti E[XY]=E[X]E[Y] . Oleh karena itu, pembilang ρX,Y adalah nol dalam kasus ini.

Jadi, jika Anda tidak mengubah arti korelasi, seperti yang disebutkan di sini, itu tidak mungkin. Kecuali, jelaskan definisi Anda tentang apa korelasinya.

Oh Tuhan
sumber
2
Namun, kami memiliki grafik yang jelas menunjukkan korelasi (terbalik) antara jumlah bajak laut dan suhu rata-rata global. Seperti komentar lain tunjukkan, orang harus berhati-hati tentang ukuran sampel, belum lagi 'penampilan tidak disengaja'
Carl Witthoft
@ Omg "jika Anda tidak mengubah arti korelasi, seperti yang disebutkan di sini" Ketika saya membaca pertanyaan OPs, saya mendapat arti yang sangat berbeda dari "korelasi". Bagi saya: "Tidak bisakah mereka memiliki sedikit korelasi secara tidak sengaja?" sangat kuat menyiratkan 'mengukur "korelasi, dan ketika Anda mengukur korelasi pada kenyataannya, Anda akan sangat sering menemukan" korelasi kecil oleh kecelakaan "
industri7
1
@ industry7 saya mengerti. Tetapi harus didefinisikan dalam metode formal. Ini kualitatif dan kami tidak dapat membicarakannya di sini.
OmG
@CarlWitthoft Jumlah bajak laut dan suhu rata-rata global tidak independen. Mereka memiliki penyebab yang sama (yaitu, waktu, perkembangan, modernisasi, dll.) Yang menciptakan ketergantungan di antara mereka. "Kemerdekaan" tidak berarti "tidak menyebabkan"; itu berarti "tidak berhubungan", dan jelas grafik tersebut menunjukkan hubungan.
Nuh
@Noah aku takut terjadi WHOOSH. venganza.org
Carl Witthoft
19

r=0.ρ.]

n=51.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

masukkan deskripsi gambar di sini

5,r=0.5716.

masukkan deskripsi gambar di sini

Tidak ada yang istimewa tentang distribusi eksponensial dalam hal ini. Mengubah distribusi induk ke standar normal memberikan hasil sebagai berikut.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

masukkan deskripsi gambar di sini

n=20.

masukkan deskripsi gambar di sini

r

BruceET
sumber
6
Untuk ukuran sampel kecil, Anda cenderung menemukan korelasi sampel yang "nyata" berbeda dari nol, tetapi Anda tidak akan lebih mungkin menemukan korelasi yang secara signifikan berbeda dari nol. Meskipun estimasi poin Anda jauh dari nol, Anda memiliki terlalu sedikit data untuk dengan yakin mengklaim bahwa Anda melihat korelasi bukan nol karena apa pun kecuali kebetulan. Dengan hanya 5 pasangan, bahkan koefisien korelasi yang lebih besar dari 0,8 mungkin tidak jauh berbeda dari 0.
Nuclear Wang
11

Jawaban sederhana: jika 2 variabel independen, maka korelasi populasi adalah nol, sedangkan korelasi sampel biasanya kecil, tetapi tidak nol.

Itu karena sampel bukan representasi yang sempurna dari populasi.

Semakin besar sampel, semakin baik mewakili populasi, sehingga semakin kecil korelasinya. Untuk sampel tanpa batas , korelasinya akan menjadi nol.

Dave
sumber
1
pϵnnϵp
Ya benar sekali! Saya mencoba untuk menjaga jawaban saya sesederhana dan sekonseptual mungkin.
Dave
1

Mungkin ini bermanfaat bagi sebagian orang yang berbagi pemahaman intuitif yang sama. Kita semua pernah melihat sesuatu seperti ini:

masukkan deskripsi gambar di sini

r=0.66

Seperti yang telah ditunjukkan orang lain, nilai sampel berkorelasi, tetapi itu tidak berarti populasi memiliki korelasi nol.

Tentu saja, keduanya harus independen — mengingat Nicolas Cage muncul dalam 10 film pengaturan rekor tahun ini, kita tidak boleh menutup kolam renang lokal untuk musim panas untuk tujuan keamanan.

Tetapi ketika kami memeriksa berapa banyak orang yang tenggelam tahun ini, ada kemungkinan kecil bahwa 1000 orang yang tenggelam dalam rekor tahun ini tenggelam.

Tidak mungkin mendapatkan korelasi seperti itu. Mungkin satu dari seribu. Tapi itu mungkin, meskipun keduanya independen. Tapi ini hanya satu kasus. Pertimbangkan bahwa ada jutaan peristiwa yang mungkin untuk diukur di sana, dan Anda dapat melihat peluang bahwa peluang dua orang untuk memberikan korelasi tinggi cukup tinggi (karenanya keberadaan grafik seperti itu di atas).

Cara lain untuk melihatnya adalah bahwa menjamin bahwa dua peristiwa independen akan selalu memberikan nilai yang tidak berkorelasi dengan sendirinya membatasi. Diberikan dua dadu independen, dan hasil yang pertama, ada serangkaian hasil (yang cukup besar) untuk dadu kedua yang akan memberikan beberapa korelasi nol. Membatasi hasil dadu kedua untuk memberikan korelasi nol dengan yang pertama adalah pelanggaran yang jelas terhadap independensi, karena gulungan dadu pertama sekarang memengaruhi distribusi hasil.

Simon Alford
sumber