Ada dua vektor Boolean, yang hanya berisi 0 dan 1. Jika saya menghitung korelasi Pearson atau Spearman, apakah itu bermakna atau masuk akal?
correlation
binary-data
pearson-r
spearman-rho
Zhilong Jia
sumber
sumber
Jawaban:
Korelasi Pearson dan Spearman didefinisikan selama Anda memiliki beberapa s dan beberapa untuk kedua dari dua variabel biner, katakanlah dan . Sangat mudah untuk mendapatkan ide kualitatif yang baik tentang apa yang mereka maksud dengan memikirkan sebaran plot dari dua variabel. Jelas, hanya ada empat kemungkinan (sehingga jittering untuk mengguncang poin yang identik untuk visualisasi adalah ide yang baik). Misalnya, dalam situasi apa pun di mana kedua vektor identik, tunduk pada memiliki beberapa 0s dan beberapa 1s di masing-masing, maka dengan definisi dan korelasi itu harus . Demikian pula, ada kemungkinan bahwa0 1 y x (0,0),(0,1),(1,0),(1,1) y=x 1 y=1−x dan kemudian korelasinya adalah .−1
Untuk pengaturan ini, tidak ada ruang untuk hubungan monoton yang tidak linier. Ketika mengambil jajaran dan s di bawah konvensi midrank biasa jajaran hanya transformasi linear yang asli dan dan korelasi Spearman adalah tentu identik dengan korelasi Pearson. Oleh karena itu tidak ada alasan untuk mempertimbangkan korelasi Spearman secara terpisah di sini, atau memang sama sekali.0 1 0 1
Korelasi muncul secara alami untuk beberapa masalah yang melibatkan s dan s, misalnya dalam studi proses biner dalam ruang atau waktu. Secara keseluruhan, bagaimanapun, akan ada cara yang lebih baik untuk berpikir tentang data tersebut, sebagian besar tergantung pada motif utama untuk studi tersebut. Sebagai contoh, fakta bahwa korelasi masuk akal tidak berarti bahwa regresi linier adalah cara yang baik untuk memodelkan respons biner. Jika salah satu variabel biner adalah respons, maka sebagian besar orang statistik akan mulai dengan mempertimbangkan model logit.0 1
sumber
Ada metrik kesamaan khusus untuk vektor biner, seperti:
dll.
Untuk detailnya, lihat di sini .
sumber
Saya tidak akan menyarankan untuk menggunakan koefisien korelasi Pearson untuk data biner, lihat contoh tandingan berikut:
dalam kebanyakan kasus keduanya memberi 1
tetapi korelasi tidak menunjukkan ini
Namun ukuran kesamaan biner seperti indeks Jaccard menunjukkan asosiasi yang jauh lebih tinggi:
Kenapa ini? Lihat di sini regresi bivariat sederhana
plot di bawah ini (noise kecil ditambahkan untuk membuat jumlah poin lebih jelas)
sumber