Apakah ada perbedaan antara dan ?

21

Koefisien korelasi biasanya ditulis dengan huruf kapital tetapi terkadang tidak. Saya ingin tahu apakah benar-benar ada perbedaan antara dan ? Dapatkah berarti sesuatu yang lain daripada koefisien korelasi?Rr2R2r

DJack
sumber
7
Saya terkejut pertanyaan ini tidak dipilih - jelas dan ditentukan dengan baik, dan mencakup masalah di mana terminologi digunakan dengan cara yang tidak konsisten. Lebih buruk lagi, karena peka huruf besar-kecil, topik sulit untuk dicari klarifikasi! Selain dari fakta bahwa dapat digunakan untuk dua hal yang sangat berbeda, situasi menjadi lebih buruk ketika kita mempertimbangkan model tanpa syarat intercept, ketika , koefisien determinasi, bahkan tidak sama dengan persegi . Tidaklah mengherankan jika orang dapat menemukan notasi membingungkan. R 2 RrR2R
Silverfish

Jawaban:

18

Notasi mengenai hal ini tampaknya sedikit berbeda.

R digunakan dalam konteks korelasi berganda dan disebut "koefisien korelasi berganda". Ini adalah korelasi antara respons yang diamati dan dipasang oleh model. The umumnya diperkirakan dari beberapa variabel prediktor , misalnya mana intercept dan slope koefisien telah diperkirakan dari data . Perhatikan bahwa .Y Y X i Y = β 0 + β 1 X 1 + β 2 X 2 β i 0 R 1YY^Y^XiY^=β^0+β^1X1+β^2X2β^i0R1

Simbol adalah "koefisien korelasi sampel" yang digunakan dalam kasus bivariat - yaitu ada dua variabel, dan - dan biasanya berarti korelasi antara dan dalam sampel Anda. Anda dapat memperlakukan ini sebagai perkiraan korelasiX Y X YrXYXY antara dua variabel dalam populasi yang lebih luas. Untuk mengkorelasikan dua variabel, tidak perlu mengidentifikasi mana yang merupakan prediktor dan mana yang merupakan respons. Memang jika Anda menemukan korelasi antara Y dan X itu akan sama dengan korelasi antara X dan Y , karena korelasi itusimetrisρYXXY. Perhatikan bahwa ketika simbol r digunakan dengan cara ini, dengan r < 0 (korelasi negatif) jika kedua variabel memiliki hubungan yang menurun secara linear (saat salah satu naik, yang lain cenderung turun).1r1rr<0

Dimana notasi menjadi tidak konsisten adalah ketika ada dua variabel, dan Y , dan regresi linier sederhana dilakukan. Ini berarti mengidentifikasi satu variabel, Y , sebagai variabel respon, dan lainnya, X , sebagai variabel prediktor, dan pas model Y = β 0 + β 1 X . Beberapa orang juga menggunakan simbol r untuk menunjukkan korelasi antara Y dan Y sementara yang lain (untuk konsistensi dengan regresi berganda) write RXYYXY^=β^0+β^1XrYY^R. Perhatikan bahwa korelasi antara respons yang diamati dan yang dipasang tentu lebih besar dari atau sama dengan nol. Ini adalah salah satu alasan saya tidak seperti penggunaan simbol dalam hal ini: korelasi antara X dan Y mungkin negatif, sedangkan korelasi antara Y dan Y adalah positif (pada kenyataannya itu hanya akan menjadi modulus dari korelasi antara X dan Y ) namun keduanya dapat ditulis dengan simbol r . Saya telah melihat beberapa buku teks, dan artikel Wikipedia, beralih hampir secara bergantian antara dua makna r dan menganggapnya tidak perlu membingungkan. Saya lebih suka menggunakan simbol RrXYYY^XYrrRuntuk korelasi antara dan Y di kedua regresi tunggal dan ganda.YY^

Dalam kedua sederhana dan beberapa regresi, maka selama ada istilah intercept dipasang di model, antara Y dan Y hanya akar kuadrat dari koefisien determinasi R 2RYY^R2 (sering disebut "proporsi varians menjelaskan" atau serupa). Dalam kasus regresi linier sederhana secara khusus, maka R2=r2 mana saya menulis untuk korelasi antara X dan Y , dan R 2 dapat mewakili baik koefisien determinasi regresi atau kuadrat korelasi antararXYR2 dan Y . Karena - 1 r 1 dan 0 R 1 , ini berarti bahwa R = | r | . Jadi misalnya, jika Anda mendapatkan korelasi antara X dan Y dari r = - 0,7 maka korelasi antara Y dan dipasang Y dari regresi linier sederhana Y = β 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xakan menjadi dan koefisien determinasi akan menjadi R 2 = 0,49 yaitu hampir setengah variasi dalam respons akan dijelaskan oleh model Anda.R=0.7R2=0.49

Jika tidak ada istilah intersep yang dimasukkan dalam model, maka simbol adalah ambigu. Biasanya ini dimaksudkan sebagai koefisien determinasi, tetapi ini umumnya akan dihitung dengan cara yang berbeda dari biasanya , jadi berhati-hatilah saat membaca output dari perangkat lunak statistik Anda. Maka itu tidak lagi sama dengan kuadrat dari korelasi ganda R , juga dalam kasus bivariat tidak akan sama dengan r 2 !R2Rr2

Gegat
sumber