Bagaimana cara memahami rumus koefisien korelasi?

15

Adakah yang bisa membantu saya memahami rumus korelasi Pearson? sampel = mean dari produk dari nilai standar variabel dan .rXY

Saya agak mengerti mengapa mereka perlu membuat standar dan , tetapi bagaimana memahami produk dari kedua skor z? XY

Formula ini juga disebut "koefisien korelasi momen-produk", tetapi apa alasan tindakan produk itu? Saya tidak yakin apakah pertanyaan saya sudah jelas, tetapi saya hanya ingin mengingat formula secara intuitif.

Aaron Lu
sumber
11
Anda mungkin ingin membaca makalah "Tiga Belas Cara untuk Melihat Koefisien Korelasi" (Rodgers & Nicewander 1988). Sesuai dengan judulnya, judul ini membahas tiga belas pandangan intuitif berbeda dari koefisien korelasi. Jadi semoga setidaknya satu orang akan mengklik :)
setengah lulus
10
13 Cara dapat ditemukan di sini
Dimitriy V. Masterov
4
Cara ke-14 untuk memahami korelasi (dalam hal produk dari skor z) diturunkan untuk memahami kovarians dari variabel standar, seperti yang diilustrasikan pada stats.stackexchange.com/questions/18058/… .
whuber
4
... Dan cara ke-15 menggunakan lingkaran yang ditampilkan di stats.stackexchange.com/a/46508/919 : kecocokan kuadrat meminimalkan luas total lingkaran (ada setidaknya dua cara untuk melakukan ini ketika poin tidak tepat berbaris) dan koefisien korelasi kemudian luas rata - rata mereka (ketika kedua variabel distandarisasi).
whuber
2
Kemungkinan duplikat dari Apa itu kovarians dalam bahasa sederhana?
kjetil b halvorsen

Jawaban:

14

Dalam komentar, 15 cara untuk memahami koefisien korelasi disarankan:


13 cara yang dibahas dalam artikel Rodgers dan Nicewander (The American Statistician, Februari 1988) adalah

  1. Fungsi Skor dan Cara Mentah,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Kovarian Standar,

    r=sXY/(sXsY)

    di mana adalah kovarians sampel dan s X dan s Y adalah standar deviasi sampel.sXYsXsY

  3. Kemiringan Standar Jalur Regresi,

    r=bYXsXsY=bXYsYsX,

    di mana dan b X Y adalah kemiringan garis regresi.bYXbXY

  4. Mean Geometris dari Dua Lereng Regresi,

    r=±bYXbXY.
  5. Akar Kuadrat dari Rasio Dua Varian (Proporsi Variabilitas Disumbang),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Produk Lintas Rata-Rata dari Variabel Standar,

    r=zXzY/N.
  7. A Function of the Angle Between the Two Standardized Regression Lines. The two regression lines (of Y vs. X and X vs. Y) are symmetric about the diagonal. Let the angle between the two lines be β. Then

    r=sec(β)±tan(β).
  8. A Function of the Angle Between the Two Variable Vectors,

    r=cos(α).
  9. A Rescaled Variance of the Difference Between Standardized Scores. Letting zYzX be the difference between standardized X and Y variables for each observation,

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Estimated from the "Balloon" Rule,

    r1(h/H)2

    where H is the vertical range of the entire XY scatterplot and h is the range through the "center of the distribution on the X axis" (that is, through the point of means).

  11. In Relation to the Bivariate Ellipses of Isoconcentration,

    r=D2d2D2+d2

    where D and d are the major and minor axis lengths, respectively. r also equals the slope of the tangent line of an isocontour (in standardized coordinates) at the point the contour crosses the vertical axis.

  12. A Function of Test Statistics from Designed Experiments,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.

whuber
sumber
2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber