Apa perbedaan antara korelasi dan regresi linier sederhana?

Jawaban:

114

Apa perbedaan antara korelasi antara dan dan regresi linier yang memprediksi dari ?Y Y XXYYX

Pertama, beberapa kesamaan :

  • koefisien regresi standar adalah sama dengan koefisien korelasi Pearson
  • Kuadrat koefisien korelasi Pearson sama dengan dalam regresi linier sederhanaR2
  • Baik regresi linier sederhana maupun korelasi tidak menjawab pertanyaan kausalitas secara langsung. Hal ini penting, karena saya sudah bertemu orang-orang yang berpikir bahwa regresi sederhana ajaib dapat memungkinkan kesimpulan bahwa menyebabkan .YXY

Kedua, beberapa perbedaan :

  • Persamaan regresi (yaitu, ) dapat digunakan untuk membuat prediksi berdasarkan nilaiY Xa+bXYX
  • Sementara korelasi biasanya mengacu pada hubungan linier, itu dapat merujuk pada bentuk-bentuk lain dari ketergantungan, seperti hubungan polinomial atau benar-benar nonlinear
  • Sementara korelasi biasanya mengacu pada koefisien korelasi Pearson, ada jenis korelasi lain, seperti Spearman.
Jeromy Anglim
sumber
Hai Jeromy, terima kasih atas penjelasannya, tapi saya masih punya pertanyaan di sini: Bagaimana jika saya tidak perlu membuat prediksi dan hanya ingin tahu seberapa dekat dua variabel dan ke arah / kekuatan mana? Apakah masih ada perbedaan menggunakan kedua teknik ini?
yue86231
3
@ yue86231 Maka kedengarannya seperti ukuran korelasi akan lebih tepat.
Jeromy Anglim
5
(+1) Untuk kesamaan mungkin berguna untuk menambahkan bahwa tes standar hipotesis "korelasi = 0" atau, yang setara, "kemiringan = 0" (untuk regresi dalam urutan mana pun), seperti yang dilakukan oleh lmdan cor.testdalam R, akan menghasilkan nilai-p yang identik.
whuber
3
Saya setuju bahwa saran dari @whuber harus ditambahkan, tetapi pada tingkat yang sangat dasar saya pikir perlu menunjukkan bahwa tanda kemiringan regresi dan koefisien korelasi adalah sama. Ini mungkin salah satu hal pertama yang dipelajari kebanyakan orang tentang hubungan antara korelasi dan "garis paling cocok" (bahkan jika mereka belum menyebutnya "regresi"), tetapi saya pikir itu patut dicatat. Untuk perbedaan, fakta bahwa Anda mendapatkan jawaban korelasi X yang sama dengan Y atau sebaliknya, tetapi bahwa regresi Y pada X berbeda dengan X pada Y, mungkin juga pantas disebutkan.
Silverfish
36

Ini jawaban yang saya posting di situs web graphpad.com :

Korelasi dan regresi linier tidak sama. Pertimbangkan perbedaan-perbedaan ini:

  • Korelasi mengkuantifikasi sejauh mana dua variabel terkait. Korelasi tidak cocok dengan garis melalui data.
  • Dengan korelasi Anda tidak perlu memikirkan sebab dan akibat. Anda cukup menghitung seberapa baik dua variabel saling berhubungan. Dengan regresi, Anda harus memikirkan sebab dan akibat karena garis regresi ditentukan sebagai cara terbaik untuk memprediksi Y dari X.
  • Dengan korelasi, tidak masalah yang mana dari dua variabel yang Anda sebut "X" dan yang Anda sebut "Y". Anda akan mendapatkan koefisien korelasi yang sama jika Anda menukar keduanya. Dengan regresi linier, keputusan variabel mana yang Anda sebut "X" dan yang Anda panggil "Y" sangat penting, karena Anda akan mendapatkan garis paling cocok yang terbaik jika Anda menukar keduanya. Baris yang paling baik memprediksi Y dari X tidak sama dengan garis yang memprediksi X dari Y (kecuali Anda memiliki data sempurna tanpa pencar.)
  • Korelasi hampir selalu digunakan ketika Anda mengukur kedua variabel. Ini jarang sesuai ketika satu variabel adalah sesuatu yang Anda manipulasi secara eksperimental. Dengan regresi linier, variabel X biasanya adalah sesuatu yang Anda manipulasi secara eksperimental (waktu, konsentrasi ...) dan variabel Y adalah sesuatu yang Anda ukur.
Harvey Motulsky
sumber
13
"cara terbaik untuk memprediksi Y dari X" tidak ada hubungannya dengan sebab dan akibat: X bisa menjadi penyebab Y atau sebaliknya. Satu dapat alasan dari sebab akibat (deduksi) atau dari akibat ke sebab (abduksi).
Neil G
4
"Anda akan mendapatkan garis paling cocok yang berbeda jika Anda menukar keduanya" sedikit menyesatkan; lereng standar akan sama dalam kedua kasus.
xenocyon
26

Dalam kasus prediktor tunggal regresi linier, kemiringan terstandar memiliki nilai yang sama dengan koefisien korelasi. Keuntungan dari regresi linier adalah bahwa hubungan dapat digambarkan sedemikian rupa sehingga Anda dapat memprediksi (berdasarkan hubungan antara dua variabel) skor pada variabel yang diprediksi diberikan nilai tertentu dari variabel prediktor. Secara khusus satu informasi sepotong regresi linier memberi Anda bahwa korelasi tidak adalah intersep, nilai pada variabel yang diprediksi ketika prediktornya adalah 0.

Singkatnya - mereka menghasilkan hasil yang identik secara komputasi, tetapi ada lebih banyak elemen yang mampu ditafsirkan dalam regresi linier sederhana. Jika Anda tertarik untuk hanya menandai besarnya hubungan antara dua variabel, gunakan korelasi - jika Anda tertarik untuk memprediksi atau menjelaskan hasil Anda dalam hal nilai-nilai tertentu yang Anda mungkin ingin regresi.

russellpierce
sumber
"Secara khusus satu informasi sepotong regresi linier memberi Anda bahwa suatu korelasi tidak adalah mencegat" ... Sangat berbeda!
SIslam
Nah, mengingat kembali itu, memang benar bahwa regresi menyediakan intersep adalah karena itu adalah default untuk banyak paket statistik untuk melakukannya. Orang bisa dengan mudah menghitung regresi tanpa intersep.
russellpierce
Ya, orang dapat dengan mudah menghitung regresi tanpa intersepsi tetapi jarang akan bermakna: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen
@ kjetilbhalvorsen Kecuali seperti dalam kasus yang saya jelaskan saat Anda memasang kemiringan standar. Istilah intersep dalam persamaan regresi standar selalu 0. Mengapa? Karena kedua IV dan DV telah distandarisasi untuk nilai satuan - sebagai hasilnya intersep adalah 0. Secara persis jenis kasus yang Anda jelaskan dalam jawaban Anda. (setara dengan standardisasi IV dan DV). Ketika kedua IV dan DV telah distandarisasi menjadi 0, intersep secara definitif adalah 0.
russellpierce
11

Analisis korelasi hanya menghitung hubungan antara dua variabel yang mengabaikan variabel dependen dan yang independen. Tetapi sebelum menerapkan regresi, Anda harus mempertimbangkan dampak variabel mana yang ingin Anda periksa pada variabel lainnya.


sumber
9

Semua jawaban yang diberikan sejauh ini memberikan wawasan penting tetapi tidak boleh dilupakan bahwa Anda dapat mengubah parameter satu menjadi yang lain:

Regresi:y=mx+b

Hubungan antara parameter regresi dan korelasi, kovarians, varians, standar deviasi dan berarti: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Jadi Anda dapat mengubah keduanya menjadi satu sama lain dengan menskalakan dan menggeser parameternya.

Contoh dalam R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
sumber
3

Dari korelasi kita hanya bisa mendapatkan indeks yang menggambarkan hubungan linear antara dua variabel; dalam regresi kita dapat memprediksi hubungan antara lebih dari dua variabel dan dapat menggunakannya untuk mengidentifikasi variabel x mana yang dapat memprediksi variabel hasil y .

radia
sumber
3

Mengutip Altman DG, "Statistik praktis untuk penelitian medis" Chapman & Hall, 1991, halaman 321: "Korelasi mengurangi satu set data ke satu nomor yang tidak berhubungan langsung dengan data aktual. Regresi adalah metode yang jauh lebih berguna, dengan hasil yang jelas terkait dengan pengukuran yang diperoleh. Kekuatan hubungan itu eksplisit, dan ketidakpastian dapat dilihat dengan jelas dari interval kepercayaan atau interval prediksi "

Carlo Lazzaro
sumber
3
Meskipun saya bersimpati dengan Altman - metode regresi sering lebih cocok daripada korelasi dalam banyak kasus - kutipan ini menyiapkan argumen orang bodoh. Dalam regresi OLS informasi yang dihasilkan setara dengan yang diberikan oleh informasi yang masuk ke dalam perhitungan korelasi (semua momen bivariat pertama dan kedua dan kesalahan standarnya) dan koefisien korelasi memberikan informasi yang sama dengan kemiringan regresi. Kedua pendekatan tersebut agak berbeda dalam model data dasar yang mereka asumsikan dan dalam interpretasi mereka, tetapi tidak dalam cara yang diklaim oleh Altman.
whuber
1

Analisis regresi adalah teknik untuk mempelajari sebab akibat dari hubungan antara dua variabel. sedangkan, Analisis korelasi adalah teknik untuk mempelajari jumlah hubungan antara dua variabel.

Kanon Das Zinku
sumber
6
Selamat datang di CV! Mengingat sudah ada begitu banyak jawaban untuk pertanyaan ini, apakah Anda ingin melihatnya dan melihat apakah jawaban Anda menambahkan sesuatu yang baru? Jika Anda ingin mengatakan lebih banyak, Anda dapat mengeditnya untuk melakukannya.
Scortchi
0

Korelasi adalah indeks (hanya satu angka) dari kekuatan suatu hubungan. Regresi adalah analisis (estimasi parameter model dan uji statistik signifikansi mereka) dari kecukupan hubungan fungsional tertentu. Ukuran korelasi terkait dengan seberapa akurat prediksi regresi akan.

Jdub
sumber
1
Bukan itu. Korelasi memberi kita hubungan terbatas, tetapi itu tidak berhubungan dengan seberapa akurat prediksi itu. R2 memberikan itu.
SmallChess
-3

Korelasi adalah istilah dalam statistik yang menentukan apakah ada hubungan antara dua dan kemudian tingkat hubungan. Kisarannya adalah dari -1 hingga +1. Sedangkan regresi berarti kembali ke rata-rata. Dari regresi kita memprediksi nilai dengan menjaga satu variabel dependen dan independen lainnya tetapi harus memperjelas nilai variabel yang ingin kita prediksi.

shakir sabir
sumber
6
Halo, @shakir, dan selamat datang di Cross Validated! Anda mungkin memperhatikan bahwa ini adalah pertanyaan lama (dari 2010) dan sudah ada tujuh (!) Jawaban yang diberikan kepadanya. Merupakan ide bagus untuk memastikan bahwa jawaban baru Anda menambahkan sesuatu yang penting pada diskusi yang belum pernah dibahas sebelumnya. Saat ini saya tidak yakin itu masalahnya.
amoeba