Hubungan antara koefisien korelasi phi, Matthews dan Pearson

13

Apakah koefisien korelasi phi dan Matthews konsep yang sama? Bagaimana mereka terkait atau setara dengan koefisien korelasi Pearson untuk dua variabel biner? Saya menganggap nilai biner adalah 0 dan 1.


Korelasi Pearson antara dua variabel acak Bernoulli dan y adalah:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

dimana

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Koefisien Phi dari Wikipedia:

Dalam statistik, koefisien phi (juga disebut sebagai "koefisien kontingensi kuadrat rata-rata" dan dilambangkan dengan atau r ϕ ) adalah ukuran asosiasi untuk dua variabel biner yang diperkenalkan oleh Karl Pearson. Ukuran ini mirip dengan koefisien korelasi Pearson dalam interpretasinya. Bahkan, koefisien korelasi Pearson diperkirakan untuk dua variabel biner akan mengembalikan koefisien ...ϕrϕ

Jika kita memiliki tabel 2 × 2 untuk dua variabel acak dan yxy

masukkan deskripsi gambar di sini

xy

ϕ=n11n00n10n01n1n0n0n1

Koefisien korelasi Matthews dari Wikipedia:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

Dalam persamaan ini, TP adalah jumlah positif sejati, TN jumlah negatif sejati, FP jumlah positif palsu, dan FN jumlah negatif palsu. Jika salah satu dari empat jumlah dalam penyebut adalah nol, penyebut dapat secara sewenang-wenang ditetapkan menjadi satu; ini menghasilkan koefisien korelasi Matthews nol, yang dapat ditunjukkan sebagai nilai pembatas yang benar.

Tim
sumber

Jawaban:

14

Ya, mereka sama. Koefisien korelasi Matthews hanyalah aplikasi tertentu dari koefisien korelasi Pearson ke tabel kebingungan.

Tabel kontingensi hanyalah ringkasan dari data yang mendasarinya. Anda dapat mengonversinya kembali dari jumlah yang ditampilkan di tabel kontingensi ke satu baris per pengamatan.

Perhatikan contoh matriks kebingungan yang digunakan dalam artikel Wikipedia dengan 5 positif sejati, 17 negatif sejati, 2 positif palsu, dan 3 negatif palsu

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
sumber
Terima kasih, Peter! Secara matematis, mengapa phi dan Mathew setara dengan Pearson untuk dua variabel acak biner?
Tim
Jika Anda mengambil definisi korelasi Pearson dan memanipulasinya sehingga mengacu pada jumlah daripada jumlah perbedaan antara pengamatan individu dan sarana, Anda mendapatkan rumus Matthews. Saya belum benar-benar melakukan ini, tetapi itu harus cukup mudah.
Peter Ellis
2

E[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

ρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
ryan tt
sumber