Bagaimana perbedaan koefisien korelasi dari kemiringan regresi?

69

Saya berharap koefisien korelasi akan sama dengan kemiringan regresi (beta), namun setelah membandingkan keduanya, mereka berbeda. Bagaimana mereka berbeda - informasi berbeda apa yang mereka berikan?

luciano
sumber
3
jika mereka dinormalisasi, mereka sama. tetapi pikirkan apa yang terjadi ketika Anda melakukan pergantian unit ...
Nicolas
Saya pikir jawaban skor atas untuk Q ini (dan mungkin bahkan A saya untuk itu di mana saya menunjukkan bahwa koefisien korelasi dapat dilihat sebagai nilai absolut dari rata-rata geometrik dari dua lereng yang kita dapatkan jika kita mundur y pada x dan x pada y, masing-masing) juga relevan di sini
statmerkur

Jawaban:

82

Dengan asumsi Anda sedang berbicara tentang model regresi sederhana diperkirakan oleh kuadrat terkecil, kita tahu dari wikipedia bahwa Oleh karena itu kedua hanya bertepatan ketika . Artinya, mereka hanya bertepatan ketika dua variabel berada pada skala yang sama, dalam beberapa hal. Cara paling umum untuk mencapai ini adalah melalui standarisasi, seperti yang ditunjukkan oleh @gung.

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

Keduanya, dalam beberapa hal memberi Anda informasi yang sama - masing-masing memberi tahu Anda kekuatan hubungan linear antara dan . Tapi, mereka masing-masing memberi Anda informasi yang berbeda (kecuali, tentu saja, ketika mereka persis sama):XiYi

  • Korelasi memberi Anda pengukuran terbatas yang dapat diartikan secara independen dari skala dua variabel. Semakin dekat perkiraan korelasi adalah untuk , semakin dekat keduanya untuk hubungan linear sempurna . Kemiringan regresi, secara terpisah, tidak memberi tahu Anda informasi itu.±1

  • Kemiringan regresi memberikan kuantitas yang berguna diartikan sebagai perkiraan perubahan nilai yang diharapkan dari untuk nilai tertentu . Secara khusus, memberi tahu Anda perubahan nilai yang diharapkan dari sesuai dengan peningkatan 1 unit di . Informasi ini tidak dapat disimpulkan dari koefisien korelasi saja.YiXiβ^YiXi

Makro
sumber
Sebagai akibat wajar dari jawaban ini, perhatikan bahwa regresi x terhadap y bukanlah kebalikan dari kemunduran y terhadap x!
aginensky
23

Dengan regresi linier sederhana (yaitu, hanya 1 kovariat), kemiringan sama dengan Pearson jika kedua variabel distandarisasi terlebih dahulu. (Untuk informasi lebih lanjut, Anda mungkin menemukan jawaban saya di sini bermanfaat.) Ketika Anda melakukan regresi berganda, ini bisa lebih rumit karena , dll.β1r

gung - Reinstate Monica
sumber
14

The koefisien korelasi mengukur "sesak" hubungan linear antara dua variabel dan dibatasi antara -1 dan 1, inklusif. Korelasi mendekati nol tidak menunjukkan hubungan linier antara variabel, sedangkan korelasi mendekati -1 atau +1 menunjukkan hubungan linear yang kuat. Secara intuitif, semakin mudah bagi Anda untuk menggambar garis yang paling cocok melalui sebar, semakin berkorelasi mereka.

The slope regresi mengukur "kecuraman" dari hubungan linear antara dua variabel dan dapat mengambil nilai apapun dari untuk . Kemiringan mendekati nol berarti bahwa variabel respons (Y) berubah secara perlahan ketika variabel prediktor (X) berubah. Kemiringan yang lebih jauh dari nol (baik dalam arah negatif atau positif) berarti respons berubah lebih cepat ketika prediktor berubah. Secara intuitif, jika Anda menggambar garis yang paling cocok melalui sebar, semakin curam itu, semakin jauh kemiringan Anda dari nol.+

Jadi koefisien korelasi dan kemiringan regresi HARUS memiliki tanda yang sama (+ atau -), tetapi hampir tidak akan pernah memiliki nilai yang sama.

Untuk kesederhanaan, jawaban ini mengasumsikan regresi linier sederhana.

Underminer
sumber
Anda mendakwa beta bisa berada di , tetapi bukankah ada kasus per kasus terikat pada beta yang tersirat oleh rasio varian x dan y? inf,inf
Matifou
1

Koefisien korelasi Pearson tidak berdimensi dan diskalakan antara -1 dan 1 terlepas dari dimensi dan skala variabel input.

Jika (misalnya) Anda memasukkan massa dalam gram atau kilogram, tidak ada bedanya dengan nilai , sedangkan ini akan membuat perbedaan yang luar biasa pada gradien / kemiringan (yang memiliki dimensi dan diskalakan sesuai ... demikian juga, itu tidak ada bedanya dengan jika skala disesuaikan dengan cara apa pun, termasuk menggunakan pound atau ton sebagai gantinya).rr

Peragaan sederhana (permintaan maaf karena menggunakan Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

menunjukkan bahwa meskipun kemiringan telah meningkat sebesar faktor 10.r=0.969363

Saya harus mengakui bahwa ini adalah trik yang rapi yang harus diskalakan antara -1 dan 1 (salah satu kasus di mana pembilang tidak pernah dapat memiliki nilai absolut lebih besar dari penyebut).r

Seperti @Macro telah merinci di atas, kemiringan , jadi Anda benar dalam intuisi bahwa Pearson terkait dengan kemiringan, tetapi hanya jika disesuaikan menurut ke standar deviasi (yang secara efektif mengembalikan dimensi dan skala!).b=r(σyσx)r

Pada awalnya saya pikir itu aneh bahwa rumus tampaknya menyarankan garis yang dipasang longgar ( rendah ) menghasilkan gradien yang lebih rendah; kemudian saya memplot contoh dan menyadari bahwa diberi gradien, memvariasikan hasil "kelonggaran" dalam menurun tetapi ini diimbangi dengan peningkatan proporsional dalam .rrσy

Dalam bagan di bawah ini, empat dataset diplot:x,y

  1. hasil (jadi gradien , , , ) ... perhatikan bahway=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. sama tetapi bervariasi dengan angka acak, dengan , , , dari mana kita dapat menghitungr=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (jadi dan , , )b=15r=1σx=0.58σy=8.66
  4. sama dengan (2) tetapi dengan rentang tereduksi jadi (dan masih , , ) xb=14.70r=0.2447σx=0.58σy=34.69korelasi dan gradien

Dapat dilihat bahwa varians mempengaruhi tanpa perlu mempengaruhi , dan satuan ukuran dapat mempengaruhi skala dan dengan demikian tanpa mempengaruhirbbr

James
sumber