Apa yang bisa menyebabkan perbedaan besar dalam koefisien korelasi antara korelasi Pearson dan Spearman untuk dataset yang diberikan?

22

Koefisien Pearson antara dua variabel cukup tinggi (r = .65). Tetapi ketika saya peringkat nilai variabel dan menjalankan korelasi Spearman, nilai cofficient jauh lebih rendah (r = .30).

  • Apa interpretasi dari ini?
pengguna3671
sumber
5
Biasanya ide yang baik untuk menunjukkan sebaran data sebelum menafsirkan koefisien korelasi.
chl
Berapa ukuran sampel Anda?
Jeromy Anglim

Jawaban:

37

Kenapa bedanya besar

  • Jika data Anda terdistribusi normal atau terdistribusi secara seragam, saya akan berpikir bahwa korelasi Spearman dan Pearson harus sama.

  • Jika mereka memberikan hasil yang sangat berbeda seperti dalam kasus Anda (0,65 vs 0,30), tebakan saya adalah bahwa Anda memiliki data miring atau pencilan, dan pencilan memimpin korelasi Pearson menjadi lebih besar daripada korelasi Spearman. Yaitu, nilai yang sangat tinggi pada X dapat terjadi bersamaan dengan nilai yang sangat tinggi pada Y.

  • @ chl sangat tepat. Langkah pertama Anda harus melihat plot pencar.
  • Secara umum, perbedaan besar antara Pearson dan Spearman adalah bendera merah yang menunjukkan hal itu
    • korelasi Pearson mungkin bukan ringkasan yang berguna dari hubungan antara dua variabel Anda, atau
    • Anda harus mengubah satu atau kedua variabel sebelum menggunakan korelasi Pearson, atau
    • Anda harus menghapus atau menyesuaikan outlier sebelum menggunakan korelasi Pearson.

Pertanyaan-pertanyaan Terkait

Lihat juga pertanyaan-pertanyaan sebelumnya tentang perbedaan antara korelasi Spearman dan Pearson:

Contoh R sederhana

Berikut ini adalah simulasi sederhana tentang bagaimana ini dapat terjadi. Perhatikan bahwa kasus di bawah ini melibatkan pencilan tunggal, tetapi Anda dapat menghasilkan efek yang serupa dengan banyak pencilan atau data miring.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Yang memberikan output ini

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Analisis korelasi menunjukkan bahwa tanpa outlier Spearman dan Pearson sangat mirip, dan dengan outlier yang agak ekstrim, korelasinya sangat berbeda.

Plot di bawah ini menunjukkan bagaimana memperlakukan data sebagai peringkat menghilangkan pengaruh ekstrim dari pencilan, sehingga menyebabkan Spearman menjadi serupa baik dengan dan tanpa pencilan sedangkan Pearson sangat berbeda ketika pencilan ditambahkan. Ini menyoroti mengapa Spearman sering disebut kuat.

masukkan deskripsi gambar di sini

Jeromy Anglim
sumber