Apakah penting untuk menghitung korelasi Pearson atau Spearman antara dua vektor Boolean?

42

Ada dua vektor Boolean, yang hanya berisi 0 dan 1. Jika saya menghitung korelasi Pearson atau Spearman, apakah itu bermakna atau masuk akal?

Zhilong Jia
sumber
2
Jika kedua variabel dikotomis, Pearson = Spearman = Kendall's tau. Ya itu mungkin masuk akal. Dengan data yang benar-benar biner (boolean) itu juga masuk akal untuk menghitung "Pearson" pada data tanpa pemusatan, itu akan menjadi kosinus.
ttnphns
1
... dan = Phi (Chi-square terstandarisasi) yang membawa kita dari skala ke tabel kontingensi.
ttnphns

Jawaban:

34

Korelasi Pearson dan Spearman didefinisikan selama Anda memiliki beberapa s dan beberapa untuk kedua dari dua variabel biner, katakanlah dan . Sangat mudah untuk mendapatkan ide kualitatif yang baik tentang apa yang mereka maksud dengan memikirkan sebaran plot dari dua variabel. Jelas, hanya ada empat kemungkinan (sehingga jittering untuk mengguncang poin yang identik untuk visualisasi adalah ide yang baik). Misalnya, dalam situasi apa pun di mana kedua vektor identik, tunduk pada memiliki beberapa 0s dan beberapa 1s di masing-masing, maka dengan definisi dan korelasi itu harus . Demikian pula, ada kemungkinan bahwa01yx(0,0),(0,1),(1,0),(1,1)y=x1y=1xdan kemudian korelasinya adalah .1

Untuk pengaturan ini, tidak ada ruang untuk hubungan monoton yang tidak linier. Ketika mengambil jajaran dan s di bawah konvensi midrank biasa jajaran hanya transformasi linear yang asli dan dan korelasi Spearman adalah tentu identik dengan korelasi Pearson. Oleh karena itu tidak ada alasan untuk mempertimbangkan korelasi Spearman secara terpisah di sini, atau memang sama sekali.0101

Korelasi muncul secara alami untuk beberapa masalah yang melibatkan s dan s, misalnya dalam studi proses biner dalam ruang atau waktu. Secara keseluruhan, bagaimanapun, akan ada cara yang lebih baik untuk berpikir tentang data tersebut, sebagian besar tergantung pada motif utama untuk studi tersebut. Sebagai contoh, fakta bahwa korelasi masuk akal tidak berarti bahwa regresi linier adalah cara yang baik untuk memodelkan respons biner. Jika salah satu variabel biner adalah respons, maka sebagian besar orang statistik akan mulai dengan mempertimbangkan model logit.01

Nick Cox
sumber
1
Apakah itu berarti dalam situasi ini, koefisien korelasi Pearson atau Spearman bukanlah metrik kesamaan yang baik untuk dua vektor biner ini?
Zhilong Jia
Ya dalam arti bahwa itu tidak mengukur kesamaan dan tidak terdefinisi untuk semua 0s atau semua 1s untuk kedua vektor.
Nick Cox
Kasus 2 identik atau 'berlawanan' tidak jelas bagi saya. Jika x = c (1,1,1,1,1) dan y = (0,0,0,0,0) maka y = 1-x dan sepertinya Anda mengatakan ini harus menjadi kasus menurut definisi , menyiratkan korelasi -1. Sama y = x-1 yang menyiratkan korelasi +1. Hanya ada 1 titik (5 ulangan) pada sebar sehingga setiap garis lurus dapat ditarik melaluinya. Rasanya korelasi tidak terdefinisi dalam hal ini. Maaf jika saya salah mengerti apa yang Anda maksud. @NickCox
PM.
2
Tidak; Saya tidak mengatakan itu, seperti yang saya tunjukkan dalam kalimat pertama saya bahwa Anda harus memiliki campuran 0s dan 1s agar korelasi dapat didefinisikan. Sebaliknya jika SD dari kedua variabel adalah 0 maka korelasinya tidak terdefinisi. Tapi saya sudah mengedit jawaban saya untuk menyebutkan itu dua kali.
Nick Cox
15

Ada metrik kesamaan khusus untuk vektor biner, seperti:

  • Jaccard-Needham
  • Dadu
  • Yule
  • Russell-Rao
  • Sokal-Michener
  • Rogers-Tanimoto
  • Kulzinsky

dll.

Untuk detailnya, lihat di sini .

Digio
sumber
5
Tentunya ada banyak referensi yang lebih andal dan komprehensif. Bahkan pada level yang membuat nama penulisnya benar, catat Kulczyński dan Tanimoto. Lihat misalnya Hubaca, Z. 1982. Koefisien asosiasi dan kesamaan, berdasarkan data biner (ada-tidaknya): Evaluasi. Ulasan Biologis 57: 669-689.
Nick Cox
5
Mereka jelas salah mengeja 'Tanimoto' tetapi 'Kulzinsky' sengaja disederhanakan. Referensi Anda lebih kredibel tanpa keraguan tetapi tidak dapat diakses oleh semua orang.
Digio
0

Saya tidak akan menyarankan untuk menggunakan koefisien korelasi Pearson untuk data biner, lihat contoh tandingan berikut:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

dalam kebanyakan kasus keduanya memberi 1

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

tetapi korelasi tidak menunjukkan ini

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

Namun ukuran kesamaan biner seperti indeks Jaccard menunjukkan asosiasi yang jauh lebih tinggi:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

Kenapa ini? Lihat di sini regresi bivariat sederhana

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

plot di bawah ini (noise kecil ditambahkan untuk membuat jumlah poin lebih jelas) Garis regresi bivariat

Arne Jonas Warnke
sumber