Bagaimana cara memilih antara korelasi Pearson dan Spearman?

119

Bagaimana saya tahu kapan harus memilih antara Spearman dan Pearson's ? Variabel saya termasuk kepuasan dan skor ditafsirkan menggunakan jumlah skor. Namun, skor ini juga bisa diurutkan.rρr

amuba
sumber
2
lihat juga pertanyaan ini pada pearson dibandingkan Spearman untuk data non-normal stats.stackexchange.com/questions/3730/...
Jeromy Anglim
1
dalam hal data normal, hasilkan pearson. dalam hal data tidak normal, hasilkan spearman.

Jawaban:

137

Jika Anda ingin menjelajahi data Anda, yang terbaik adalah menghitung keduanya, karena hubungan antara korelasi Spearman (S) dan Pearson (P) akan memberikan beberapa informasi. Secara singkat, S dihitung pada peringkat dan menggambarkan hubungan monoton sedangkan P adalah pada nilai-nilai sejati dan menggambarkan hubungan linier.

Sebagai contoh, jika Anda mengatur:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Ini karena meningkat secara monoton dengan sehingga korelasi Spearman sempurna, tetapi tidak linear, sehingga korelasi Pearson tidak sempurna. xyx

corr(x,log(y),'type','Pearson');  % will equal 1

Melakukan keduanya menarik karena jika Anda memiliki S> P, itu berarti Anda memiliki korelasi yang monotonik tetapi tidak linier. Karena bagus untuk memiliki linearitas dalam statistik (lebih mudah) Anda dapat mencoba menerapkan transformasi pada (log seperti itu).y

Saya harap ini membantu membuat perbedaan antara jenis korelasi lebih mudah untuk dipahami.

Bonoboticians
sumber
2
Saya menduga ini adalah pemberian dari apa yang telah Anda katakan, tetapi saya hanya ingin memastikan bahwa tidak mungkin terjadi S <P.
Jonathan Thiele
9
@ JonathanThiele sangat mungkin untuk memiliki S <P. Misalnya, set II dan IV dari Kuartet Anscombe menunjukkan perilaku ini. Juga, lihat pertanyaan ini: stats.stackexchange.com/questions/27127/…
atomicules
1
@atomicules Terima kasih atas informasinya. Saya baru saja memeriksa korelasi di Kuartet Anscombe, dan tautan Anda sangat membantu.
Jonathan Thiele
Bagaimana Anda bisa menyertakan korelasi Pearson dan Spearson dalam satu presentasi corrgram? - - Saya sedang berpikir di sini case stackoverflow.com/a/40523080/54964 - - Saya memiliki masalah multifaktorial jadi saya pikir Spearson akan valid untuk dimasukkan dan saya tidak bisa pergi hanya dengan Pearson.
Léo Léopold Hertz 준영
Ini adalah pendekatan yang biasanya saya ambil, karena memiliki manfaat tambahan menghindari pembenaran susah payah dari satu tes vs yang lain, terutama ketika menguji korelasi antara banyak variabel. Daripada memeriksa setiap variabel untuk melihat apakah asumsi korelasi Pearson atau Spearman terpenuhi, jalankan keduanya pada semuanya. Dalam banyak aplikasi praktis, mereka akan memberikan langkah-langkah signifikansi asosiasi yang serupa, jadi Anda hanya perlu menggali lebih dalam pada contoh yang relatif sedikit di mana hasilnya sangat berbeda, dan itu adalah kasus yang menarik untuk mempelajari lebih lanjut tentang hal itu.
Nuklir Wang
50

Jawaban terpendek dan sebagian besar benar adalah:

Pearson tolok ukur hubungan linier , Spearman tolok ukur hubungan monotonik (beberapa kasus tak terhingga lebih umum, tetapi untuk beberapa tradeoff kekuatan).

Jadi, jika Anda menganggap / menganggap bahwa relasi itu linier (atau, sebagai kasus khusus, bahwa itu adalah dua ukuran dari hal yang sama, maka relasinya adalah ) dan situasinya tidak terlalu kaku. (periksa jawaban lain untuk perincian), gunakan Pearson. Kalau tidak gunakan Spearman.y=1x+0


sumber
35

Ini sering terjadi dalam statistik: ada berbagai metode yang dapat diterapkan dalam situasi Anda, dan Anda tidak tahu mana yang harus dipilih. Anda harus mendasarkan keputusan Anda pro dan kontra dari metode yang dipertimbangkan dan spesifik masalah Anda, tetapi bahkan keputusan itu biasanya subyektif tanpa jawaban "benar" yang disepakati. Biasanya merupakan ide yang bagus untuk mencoba sebanyak mungkin metode yang masuk akal dan kesabaran Anda akan memungkinkan dan melihat mana yang memberi Anda hasil terbaik pada akhirnya.

Perbedaan antara korelasi Pearson dan korelasi Spearman adalah bahwa Pearson paling tepat untuk pengukuran yang diambil dari skala interval , sedangkan Spearman lebih tepat untuk pengukuran yang diambil dari skala ordinal . Contoh skala interval termasuk "suhu dalam Farenheit" dan "panjang dalam inci", di mana masing-masing unit (1 derajat F, 1 inci) bermakna. Hal-hal seperti "skor kepuasan" cenderung bertipe ordinal karena walaupun jelas bahwa "5 kebahagiaan" lebih bahagia daripada "3 kebahagiaan", tidak jelas apakah Anda bisa memberikan interpretasi yang bermakna tentang "1 unit kebahagiaan". Tetapi ketika Anda menambahkan banyak pengukuran dari tipe ordinal, yang adalah apa yang Anda miliki dalam kasus Anda, Anda berakhir dengan pengukuran yang sebenarnya bukan ordinal atau interval, dan sulit untuk diinterpretasikan.

Saya akan merekomendasikan agar Anda mengubah skor kepuasan Anda menjadi skor kuantil dan kemudian bekerja dengan jumlah dari mereka, karena ini akan memberi Anda data yang sedikit lebih bisa diterima untuk interpretasi. Tetapi bahkan dalam kasus ini tidak jelas apakah Pearson atau Spearman akan lebih tepat.

charles.y.zheng
sumber
2
Bagaimana misalnya ... ketakutan komunikasi? Pemahaman yang tinggi tidak memiliki perbedaan yang pasti dengan pemahaman yang sangat tinggi, bukan? Tetapi saya telah melihat bahwa variabel tersebut telah dikorelasikan dengan variabel lain menggunakan r Pearson. Apakah itu sepenuhnya baik-baik saja? Terima kasih!
28

Saya bertemu dengan kasing yang menarik hari ini.

Jika kita melihat jumlah sampel yang sangat kecil, perbedaan antara Spearman dan Pearson bisa sangat dramatis.

Dalam kasus di bawah ini, kedua metode melaporkan korelasi yang sangat berlawanan .

masukkan deskripsi gambar di sini

Beberapa aturan praktis untuk memutuskan Spearman vs Pearson:

  • Asumsi Pearsons adalah varians dan linearitas konstan (atau sesuatu yang cukup dekat dengan itu), dan jika ini tidak terpenuhi, mungkin ada baiknya mencoba Spearmans.
  • Contoh di atas adalah kasus sudut yang hanya muncul jika ada beberapa titik data (<5). Jika ada> 100 titik data, dan datanya linier atau dekat dengannya, maka Pearson akan sangat mirip dengan Spearman.
  • Jika Anda merasa bahwa regresi linier adalah metode yang cocok untuk menganalisis data Anda, maka output Pearsons akan cocok dengan tanda dan besarnya kemiringan regresi linier (jika variabel distandarisasi).
  • Jika data Anda memiliki beberapa komponen non-linier yang tidak akan diambil regresi linier, maka pertama-tama cobalah untuk meluruskan data menjadi bentuk linier dengan menerapkan transformasi (mungkin log e). Jika itu tidak berhasil, maka Spearman mungkin tepat.
  • Saya selalu mencoba Pearson yang pertama, dan jika itu tidak berhasil, maka saya mencoba Spearman.
  • Bisakah Anda menambahkan lebih banyak aturan praktis atau memperbaiki yang baru saja saya simpulkan? Saya telah menjadikan pertanyaan ini sebagai komunitas Wiki sehingga Anda dapat melakukannya.

ps Berikut adalah kode R untuk mereproduksi grafik di atas:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))
Contango
sumber
7

Sementara setuju dengan jawaban charles, saya akan menyarankan (pada tingkat praktis) bahwa Anda menghitung kedua koefisien dan melihat perbedaannya. Dalam banyak kasus, mereka akan persis sama, jadi Anda tidak perlu khawatir.

Namun, jika mereka berbeda maka Anda perlu melihat apakah Anda memenuhi asumsi Pearsons (varians dan linearitas konstan) dan jika ini tidak terpenuhi, Anda mungkin lebih baik menggunakan Spearmans.

richiemorrisroe
sumber
3
sebagai pelajar mesin, saya tentu bukan orang suci tentang kebenaran statistik, tetapi memeriksa asumsi SETELAH melakukan tes sepertinya bid'ah bagi saya.
steffen
7
@ Greffen saya pikir tidak apa-apa. Salah satu asumsi regresi adalah bahwa residu terdistribusi normal. Bagaimana Anda memeriksanya sebelum menjalankan regresi?
Glen
1
@ Gllen: Dalam hal ini saya tidak bisa. Tetapi ketika saya membandingkan kualitas model yang berbeda, saya umumnya lebih suka memeriksa asumsi (mis. Didistribusikan secara normal) sebelum melakukan tes untuk mengurangi kecenderungan untuk mengendurkan asumsi yang mendukung hasil tes tertentu. Sebut saja pencegahan trik pikiran. Saya kira itu hanya saya;).
steffen
1
@ steffen: Anda benar tentang bidat, tetapi jika kedua prosedur memberikan hasil yang sama maka itu masalah selera yang digunakan, tetapi jika mereka tidak maka memeriksa asumsi dan di mana mereka gagal sering dapat memberikan wawasan yang berguna ke dalam data. Secara pribadi, saya menggunakan spearman sedapat mungkin, tetapi ini bukan praktik umum di bidang saya.
richiemorrisroe