Diambil dari Statistik Praktis untuk Penelitian Medis di mana Douglas Altman menulis di halaman 285:
... untuk dua kuantitas X dan Y, X akan dikorelasikan dengan XY. Memang, bahkan jika X dan Y adalah sampel angka acak, kita akan mengharapkan korelasi X dan XY menjadi 0,7
Saya mencoba ini di R dan sepertinya memang demikian:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Mengapa demikian? Apa teori di balik ini?
correlation
random-variable
intuition
tidak ada stok
sumber
sumber
Jawaban:
Jika dan adalah variabel acak tidak berkorelasi dengan varians yang sama , maka kita memiliki Akibatnya,Y σ 2 var ( X - Y )X Y σ2 ρX,X-Y=cov(X,X-Y)
sumber
cov(X,X)-cov(X,Y)=s^2
Penjelasan geometris-statistik.
Bayangkan Anda membuat scatterplot "dalam-luar" di mana subjek adalah sumbu dan variabel dan adalah poin . Ini disebut plot ruang subjek (sebagai lawan dari plot ruang variabel biasa ). Karena hanya ada 2 poin untuk plot, semua dimensi dalam ruang seperti itu kecuali hanya dua dimensi arbitrer yang dapat mendukung 2 poin plus asalnya, berlebihan dan dapat dengan aman dijatuhkan. Jadi kita dibiarkan dengan pesawat. Kami menggambar panah vektor dari titik asal ke titik: ini adalah variabel kami dan sebagai vektor dalam ruang subjek data.n 2 X Y X Y
Sekarang, jika variabel dipusatkan maka, dalam ruang subjek, kosinus sudut antara vektor mereka adalah koefisien korelasinya . Pada gambar di bawah ini, vektor dan adalah ortogonal: . Ketidakcocokan adalah prasyarat yang diuraikan oleh @Dilip dalam jawaban mereka.Y r = 0X Y r=0
Juga untuk variabel yang berpusat, panjang vektor dalam ruang subjek adalah standar deviasi mereka . Pada gambar, dan memiliki panjang yang sama, - varians yang sama juga merupakan prasyarat yang dibuat oleh @Dilip.YX Y
Untuk menggambar variabel atau variabel kita hanya menggunakan penjumlahan atau pengurangan vektor yang telah kita lupakan sejak sekolah (pindahkan vektor Y ke ujung vektor X dan balikkan arah jika terjadi pengurangan, - ini ditunjukkan oleh panah abu-abu pada pic, - lalu gambarkan vektor ke tempat panah abu-abu menunjuk).X + YX−Y X+Y
Menjadi sangat jelas bahwa panjang vektor atau (standar deviasi variabel-variabel ini) adalah, dengan teorema Pythagoras, , dan sudut antara dan atau adalah 45 derajat, yang cosinus - korelasinya - adalahX + Y √X−Y X+Y XX-YX+Y0,707 ...2σ2−−−√ X X−Y X+Y 0.707...
sumber
Saya percaya bahwa ada intuisi sederhana berdasarkan simetri di sini juga. Karena X dan Y memiliki distribusi yang sama dan memiliki kovarian 0, hubungan X ± Y dengan X harus "menjelaskan" setengah dari variasi dalam X ± Y; setengah lainnya harus dijelaskan oleh Y. Jadi R 2 harus 1/2, yang berarti R adalah 1 / √2 ≈ 0,707.
sumber
Berikut adalah cara sederhana untuk memikirkan mengapa ada korelasi di sini.
Bayangkan apa yang terjadi ketika Anda mengurangi dua distribusi. Jika nilai x rendah maka, rata-rata,
x - y
akan menjadi nilai lebih rendah daripada jika nilai x tinggi. Ketika x meningkat makax - y
meningkat, rata-rata, dan dengan demikian, korelasi positif.sumber
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
semuanya. :-)