Korelasi, , adalah ukuran hubungan linier antara dua variabel. Koefisien determinasi, , adalah ukuran seberapa besar variabilitas dalam satu variabel dapat "dijelaskan oleh" variasi yang lain.r 2
Misalnya, jika adalah korelasi antara dua variabel, maka . Oleh karena itu, 64% dari variabilitas dalam satu dapat dijelaskan oleh perbedaan yang lain. Baik?r 2 = 0,64
Pertanyaan saya adalah, untuk contoh yang disebutkan, apakah salah satu dari pernyataan berikut ini benar?
- 64% dari nilai jatuh di sepanjang garis regresi
- 80% dari nilai jatuh di sepanjang garis regresi
regression
correlation
r-squared
Bradex
sumber
sumber
Jawaban:
Bagian pertama dari ini pada dasarnya benar - tetapi 64% variasi dijelaskan oleh model. Dalam regresi linier sederhana: Y ~ X, jika adalah .64 itu berarti bahwa 64% variasi dalam Y ditentukan oleh hubungan linear antara Y dan X. Dimungkinkan untuk memiliki hubungan yang kuat dengan sangat rendah , jika hubungannya sangat non-linear.R 2R2 R2
Mengenai dua pertanyaan bernomor Anda, tidak ada yang benar. Memang, ada kemungkinan bahwa tidak ada poin yang terletak tepat di garis regresi. Bukan itu yang diukur. Sebaliknya, itu adalah pertanyaan tentang seberapa dekat titik rata-rata dengan garis. Jika semua atau hampir semua titik dekat (bahkan jika tidak ada yang tepat di telepon) maka akan tinggi. Jika sebagian besar poin jauh dari garis, akan rendah. Jika sebagian besar poin dekat tetapi beberapa jauh, maka regresi tidak benar (masalah outlier). Hal-hal lain juga bisa salah.R 2R2 R2
Selain itu, saya telah meninggalkan gagasan "jauh" agak kabur. Ini akan tergantung pada seberapa menyebar X itu. Menjadikan gagasan ini tepat adalah bagian dari apa yang Anda pelajari dalam kursus tentang regresi; Saya tidak akan membahasnya di sini.
sumber
Anda benar dengan bagian pertama dari pernyataan Anda. Cara biasa menafsirkan koefisien determinasi adalah sebagai persentase variasi variabel dependen ( ) yang dapat kami jelaskan dengan variabel penjelas. Interpretasi dan derivasi yang tepat dari koefisien determinasi dapat ditemukan di sini y V a r ( y ) R 2R2 y Var(y) R2
http://economictheoryblog.com/2014/11/05/the-coefisien-of-determinasi-latex-r2/
Namun, cara interpretasi koefisien determinasi kurang dikenal adalah dengan menafsirkannya sebagai Koefisien Korelasi Pearson Kuadrat antara nilai yang diamati dan nilai yang dipasang . Bukti bahwa koefisien determinasi adalah ekuivalen dengan Koefisien Korelasi Kuadrat Pearson antara nilai yang diamati dan nilai yang dipasang dapat ditemukan di sini y i y i y i y iR2 yi y^i yi y^i
http://economictheoryblog.com/2014/11/05/proof/
Dalam pandangan saya adalah ini satu-satunya cara bermakna menafsirkan koefisien determinasi . Oleh karena itu, dua pernyataan yang Anda buat tidak dapat diturunkan dari .R 2R2 R2
sumber
Niether 1 atau 2 sudah benar.
Katakanlah Anda mencoba memprediksi sekumpulan nilai dari sekumpulan nilai menggunakan regresi linier. Model Anda adalahxyy xx
Di mana terdengar berisik. berarti bahwa 64% dari varian dapat dijelaskan oleh variabilitas dalam di bawah model Anda. Varians residual ( yaitu , varians yang tidak dijelaskan) adalah 0,36. Yaitu, jika:R 2 = .64 y xϵi∼N(0,σ2) R2=.64 y x
Kemudian
sumber