Apakah korelasi atau koefisien determinasi berhubungan dengan persentase nilai yang termasuk dalam garis regresi?

12

Korelasi, , adalah ukuran hubungan linier antara dua variabel. Koefisien determinasi, , adalah ukuran seberapa besar variabilitas dalam satu variabel dapat "dijelaskan oleh" variasi yang lain.r 2rr2

Misalnya, jika adalah korelasi antara dua variabel, maka . Oleh karena itu, 64% dari variabilitas dalam satu dapat dijelaskan oleh perbedaan yang lain. Baik?r 2 = 0,64r=0.8r2=0.64

Pertanyaan saya adalah, untuk contoh yang disebutkan, apakah salah satu dari pernyataan berikut ini benar?

  1. 64% dari nilai jatuh di sepanjang garis regresi
  2. 80% dari nilai jatuh di sepanjang garis regresi
Bradex
sumber
Istilah "jatuh bersama" tidak tepat. Tampaknya setidaknya beberapa jawaban menafsirkannya sebagai "meletakkan tepat", dan di sana jawabannya jelas tidak (meskipun gagasan itu dapat mengarah pada ukuran yang menarik dari hubungan linier yang mungkin cocok dalam beberapa situasi tertentu - misalnya di mana ada adalah campuran dari no noise / error berapa banyak waktu, dan beberapa kesalahan sesekali, seperti dengan beberapa proses yang mencemari - dan kemudian Anda akan memperkirakan proporsi data yang tidak terkontaminasi). Jika Anda memaksudkan sesuatu selain dari "meletakkan tepat di", Anda perlu menentukan apa artinya itu.
Glen_b -Reinstate Monica

Jawaban:

8

Bagian pertama dari ini pada dasarnya benar - tetapi 64% variasi dijelaskan oleh model. Dalam regresi linier sederhana: Y ~ X, jika adalah .64 itu berarti bahwa 64% variasi dalam Y ditentukan oleh hubungan linear antara Y dan X. Dimungkinkan untuk memiliki hubungan yang kuat dengan sangat rendah , jika hubungannya sangat non-linear.R 2R2R2

Mengenai dua pertanyaan bernomor Anda, tidak ada yang benar. Memang, ada kemungkinan bahwa tidak ada poin yang terletak tepat di garis regresi. Bukan itu yang diukur. Sebaliknya, itu adalah pertanyaan tentang seberapa dekat titik rata-rata dengan garis. Jika semua atau hampir semua titik dekat (bahkan jika tidak ada yang tepat di telepon) maka akan tinggi. Jika sebagian besar poin jauh dari garis, akan rendah. Jika sebagian besar poin dekat tetapi beberapa jauh, maka regresi tidak benar (masalah outlier). Hal-hal lain juga bisa salah.R 2R2R2

Selain itu, saya telah meninggalkan gagasan "jauh" agak kabur. Ini akan tergantung pada seberapa menyebar X itu. Menjadikan gagasan ini tepat adalah bagian dari apa yang Anda pelajari dalam kursus tentang regresi; Saya tidak akan membahasnya di sini.

Peter Flom - Pasang kembali Monica
sumber
Nah itu jelas bagi saya! Terima kasih, Mimshot dan Peter Flom! Banyak terima kasih untuk kalian berdua! :)
Bradex
1
+1, jawaban yang bagus, maukah Anda menambahkan sesuatu seperti "Memang, [mungkin saja] tidak ada poin yang berbohong ...". Juga, mungkin perlu dibahas bahwa gagasan tentang seberapa jauh titik-titik dari garis juga relatif terhadap seberapa tersebar X itu.
gung - Reinstate Monica
15

Anda benar dengan bagian pertama dari pernyataan Anda. Cara biasa menafsirkan koefisien determinasi adalah sebagai persentase variasi variabel dependen ( ) yang dapat kami jelaskan dengan variabel penjelas. Interpretasi dan derivasi yang tepat dari koefisien determinasi dapat ditemukan di sini y V a r ( y ) R 2R2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefisien-of-determinasi-latex-r2/

Namun, cara interpretasi koefisien determinasi kurang dikenal adalah dengan menafsirkannya sebagai Koefisien Korelasi Pearson Kuadrat antara nilai yang diamati dan nilai yang dipasang . Bukti bahwa koefisien determinasi adalah ekuivalen dengan Koefisien Korelasi Kuadrat Pearson antara nilai yang diamati dan nilai yang dipasang dapat ditemukan di sini y i y i y i y iR2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

Dalam pandangan saya adalah ini satu-satunya cara bermakna menafsirkan koefisien determinasi . Oleh karena itu, dua pernyataan yang Anda buat tidak dapat diturunkan dari .R 2R2R2

michael
sumber
2
Saya tidak yakin hanya ada dua cara untuk menafsirkan ( tentu saja ada lebih dari dua cara untuk menafsirkan ) tetapi alasannya adalah bahwa dua pernyataan yang diberikan tidak dapat diturunkan dari adalah bahwa mereka adalah false (karena alasan @PeterFlom menjelaskan) daripada tidak ada interpretasi lain yang mungkin. Tapi saya pikir sebaliknya ini adalah jawaban yang bagus. r R 2R2rR2
Silverfish
2
Seandainya tautan yang diberikan mati di beberapa titik di masa mendatang (tautan itu adalah masalah abadi - kami lebih suka membuat jawaban mandiri jika memungkinkan, tetapi jelas pertanyaan ini tidak meminta bukti lengkap sehingga tautan itu perlu), kami memiliki beberapa cakupan hubungan antara dan , di sini , di sini , di sini dan lebih secara geometris, di sini . R 2Corr(y,y^)R2
Silverfish
2

Niether 1 atau 2 sudah benar.

Katakanlah Anda mencoba memprediksi sekumpulan nilai dari sekumpulan nilai menggunakan regresi linier. Model Anda adalahxyyxx

yi=b+mxi+ϵi

Di mana terdengar berisik. berarti bahwa 64% dari varian dapat dijelaskan oleh variabilitas dalam di bawah model Anda. Varians residual ( yaitu , varians yang tidak dijelaskan) adalah 0,36. Yaitu, jika:R 2 = .64 y xϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Kemudian

10.64=0.36=var(yyy^y^)var(yy)
Mimshot
sumber