Hubungan antara

40

Katakanlah saya memiliki dua array 1 dimensi, dan sebuah 2 . Masing-masing berisi 100 poin data. a 1 adalah data aktual, dan sebuah 2 adalah model prediksi. Dalam hal ini, nilai R 2 adalah: R 2 = 1 - S S r e sa1a2a1a2R2 Sementara itu, ini akan sama dengan nilai kuadrat dari koefisien korelasi, R 2 = ( Koefisien Korelasi ) 2

R2=1SSresSStot  (1).
Sekarang jika saya menukar dua: a 2 adalah data aktual, dan sebuah 1 adalah model prediksi. Dari persamaan ( 2 ) , karena koefisien korelasi tidak peduli yang lebih dulu, nilai R 2 akan sama. Namun, dari persamaan ( 1 ) , S S t o t = Σ i ( y i - ˉ y ) 2 , yang R 2 nilai akan berubah, karena S S
R2=(Correlation Coefficient)2(2).
a2a1(2)R2(1)SStot=i(yiy¯)2R2 telah berubah jika kita beralihydari suatu 1 ke sebuah 2 ; Sementara itu,S S r e s =i ( f i - ˉ y ) 2 tidak berubah.SStotya1a2SSres=i(fiy¯)2

Pertanyaan saya adalah: Bagaimana ini bisa saling bertentangan?

Edit :

  1. Saya bertanya-tanya bahwa, apakah hubungan dalam Persamaan. (2) masih berdiri, jika itu bukan regresi linier sederhana, yaitu, hubungan antara IV dan DV tidak linier (bisa eksponensial / log)?

  2. Akankah hubungan ini tetap ada, jika jumlah kesalahan prediksi tidak sama dengan nol?

Shawn Wang
sumber
Saya menemukan presentasi ini sangat membantu dan non teknis: google.com/...
ihadanny

Jawaban:

19

Hal ini benar bahwa akan berubah ... tapi Anda lupa fakta bahwa jumlah regresi kotak akan berubah juga. Jadi mari kita pertimbangkan model regresi sederhana dan menunjukkan Koefisien Korelasi sebagai r 2 x y = S 2 x ySStot , di mana saya menggunakan sub-indeksxyuntuk menekankan fakta bahwaxadalah variabel independen danyadalah variabel dependen. Jelas,r2 x y tidak berubah jika Anda menukarxdengany. Kita dapat dengan mudah menunjukkan bahwaSSRxy=Syy(R2 x y ), di manaSSRxyadalah jumlah regresi kuadrat dan rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy adalah jumlah total dari kotak di mana x adalah independen dan y adalah variabel dependen. Oleh karena itu: R 2 x y = S S R x ySyyxymanaSSExyadalah jumlah residu kuadrat yang sesuai di manaxadalah independen danyadalah variabel dependen. Perhatikan bahwa dalam hal ini, kita memilikiSSExy=b2 x y Sxxdenganb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (Lihat misalnya Pers. (34) - (41) disini.) Oleh karena itu:R2 x y =Syy- S 2 x yb=SxySxxJelas persamaan di atas simetris terhadapxdany. Dengan kata lain:R2 x y =R2 y x . Untuk meringkas ketika Anda mengubahxdenganydalam model regresi sederhana, baik pembilang dan penyebutR2 x y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy akan berubah sedemikian rupa sehinggaR2 x y =R2 y x .Rxy2=SSRxySyyRxy2=Ryx2.
Stat
sumber
Terima kasih banyak! Saya perhatikan bahwa ini mungkin di mana saya salah: hanya berdiri jika 1) prediksi model adalah garis lurus dan 2) rata-rata prediksi model sama dengan rata-rata titik sampel. Jika hubungan antara DV dan IV bukan garis lurus, atau jumlah kesalahan prediksi adalah nol, hubungan tidak akan bertahan. Bisakah Anda memberi tahu saya apakah ini benar? R2=r2
Shawn Wang
1
Aku memikirkan hal ini karena Anda telah menggunakan , sementara saya menggunakan persamaan saya diposting di OP. Kedua persamaan ini setara satu sama lain hanya ketika jumlah kesalahan prediksi adalah nol. Oleh karena itu, dalam OP saya, S S r e s = Σ i ( f i - ˉ y ) 2 tidak berubah sementara S S t o t berubah, dan karenanya R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2diubah.
Shawn Wang
Apakah Anda memiliki referensi tentang cara mengatasi ini untuk kasus umum p-variate Gaussians?
jmb
26

Salah satu cara untuk menafsirkan koefisien determinasi adalah dengan melihat itu sebagai Squared Pearson Koefisien Korelasi antara nilai-nilai yang diamati y i dan nilai-nilai pas y iR2yiy^i .

Bukti lengkap tentang cara menurunkan koefisien determinasi R2 dari Koefisien Korelasi Kuadrat Pearson antara nilai yang diamati yi dan nilai yang dipasang y ^ i dapat ditemukan di bawah tautan berikut:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

Di mata saya itu harus mudah dimengerti, cukup ikuti langkah-langkah tunggal. Saya kira melihat itu penting untuk memahami bagaimana hubungan antara dua tokoh kunci sebenarnya bekerja.

Andreas Dibiasi
sumber
6

Dalam kasus regresi linier sederhana dengan hanya satu prediktor . Tetapi dalam regresi linier berganda dengan lebih dari satu prediktor, konsep korelasi antara prediktor dan respons tidak meluas secara otomatis. Formula mendapat: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Kuadrat korelasi antara respons dan model linier yang dipasang.

seorang pria
sumber
5

rr2

rYXXYr.30

r2r2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

covσx2σy2covcovσx2σy2σxσyr2r

rr2Y~XX~Y

ttnphns
sumber
R2R2R2
Koefisien determinasi atau R-square adalah konsep yang lebih luas daripada r ^ 2 yang hanya tentang regresi linier sederhana. Silakan baca wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .
ttnphns
Terima kasih lagi! Itu saya mengerti. Pertanyaan saya adalah: untuk regresi yang lebih kompleks, apakah saya masih dapat menguadratkan nilai r untuk mendapatkan koefisien determinasi?
Shawn Wang
1
Untuk "regresi kompleks", Anda mendapatkan R-square, tetapi Anda tidak mendapatkan r.
ttnphns
1

R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

R2R2

R2r2R2rρ

Nick Stauner
sumber
1
R2=0.1468SSR>SSTR2R2