Korelasi Pearson atau Spearman dengan data tidak normal

113

Saya mendapatkan pertanyaan ini cukup sering dalam pekerjaan konsultasi statistik saya, yang saya pikir akan saya posting di sini. Saya punya jawaban, yang diposting di bawah, tetapi saya ingin mendengar apa yang orang lain katakan.

Pertanyaan: Jika Anda memiliki dua variabel yang tidak terdistribusi normal, haruskah Anda menggunakan Spearman rho untuk korelasinya?

Jeromy Anglim
sumber
1
Mengapa tidak menghitung dan melaporkan keduanya (Pearson r dan Spearman's ρ)? Perbedaan mereka (atau ketiadaan) akan memberikan informasi tambahan.
Sebuah pertanyaan yang membandingkan asumsi distribusi yang dibuat ketika kami menguji signifikansi koefisien regresi beta sederhana dan ketika kami menguji koefisien korelasi Pearson (numerik eual dengan beta) stats.stackexchange.com/q/181043/3277 .
ttnphns

Jawaban:

77

Korelasi Pearson adalah ukuran hubungan linear antara dua variabel acak kontinu. Itu tidak menganggap normalitas meskipun ia mengasumsikan varian terbatas dan kovarians terbatas. Ketika variabel bivariat normal, korelasi Pearson memberikan deskripsi lengkap tentang hubungan tersebut.

Korelasi Spearman berlaku untuk peringkat dan memberikan ukuran hubungan monoton antara dua variabel acak kontinu. Ini juga berguna dengan data ordinal dan kuat untuk outlier (tidak seperti korelasi Pearson).

Distribusi koefisien korelasi akan tergantung pada distribusi yang mendasarinya, walaupun keduanya asimptotik normal karena teorema limit pusat.

Rob Hyndman
sumber
12
ρ
3
Apakah ada sumber yang dapat dikutip untuk mendukung pernyataan di atas (r Orang tidak menganggap normal)? Kami memiliki argumen yang sama di departemen kami saat ini.
5
"Ketika variabel bivariat normal, korelasi Pearson memberikan deskripsi lengkap tentang asosiasi." Dan ketika variabel TIDAK normal bivariat, seberapa bermanfaat korelasi Pearson?
landroni
2
Jawaban ini sepertinya agak tidak langsung. "Ketika variabel bivariat normal ..." Dan kapan tidak? Penjelasan seperti ini adalah mengapa saya tidak pernah mendapatkan statistik. "Rob, bagaimana kamu menyukai gaun baruku?" "Warna gelap menekankan kulit terangmu." "Tentu, Rob, tapi apakah kamu suka bagaimana ini membuat kulitku kenyang?" "Kulit terang dianggap indah dalam banyak budaya." "Aku tahu, Rob, tetapi apakah kamu menyukainya?" "Aku pikir gaun itu indah." "Kurasa juga begitu, Rob, tetapi apakah itu indah bagiku ?" "Kamu selalu terlihat cantik bagiku, sayang." sigh
1
Jika Anda membaca dua kalimat sebelum itu, Anda akan menemukan jawabannya.
Rob Hyndman
49

Jangan lupa Kendall's tau ! Roger Newson berpendapat untuk keunggulan Kendall τ sebuah lebih Spearman korelasi r S sebagai ukuran berbasis rank korelasi dalam sebuah makalah yang teks lengkap sekarang tersedia bebas secara online:

Newson R. Parameter di balik statistik "nonparametrik": Kendall's tau, Somers 'D, dan median perbedaan . Stata Journal 2002; 2 (1): 45-64.

Dia merujuk (pada hal. 47) Kendall & Gibbons (1990) menyatakan bahwa "... interval kepercayaan untuk Spearman r S kurang dapat diandalkan dan kurang dapat ditafsirkan daripada interval kepercayaan untuk parameter τ -Kendall Kendall , tetapi sampel Spearman r S jauh lebih mudah dihitung tanpa komputer "(yang tidak lagi penting tentunya). Sayangnya saya tidak memiliki akses mudah ke salinan buku mereka:

Kendall, MG dan JD Gibbons. 1990. Metode Korelasi Peringkat . Edisi ke-5. London: Griffin.

onestop
sumber
2
Saya juga penggemar berat Kendall's tau. Pearson terlalu sensitif terhadap poin / outlier yang berpengaruh untuk seleraku, dan sementara Spearman tidak menderita dari masalah ini, saya pribadi menemukan Kendall lebih mudah untuk dipahami, ditafsirkan dan dijelaskan daripada Spearman. Tentu saja, jarak tempuh Anda mungkin berbeda.
Stephan Kolassa
Ingatan saya dari pengalaman adalah bahwa Kendall's tau masih berjalan jauh lebih lambat (dalam R) daripada Spearman. Ini bisa menjadi penting jika dataset Anda besar.
kata
35

Dari perspektif terapan, saya lebih peduli dengan memilih pendekatan yang merangkum hubungan antara dua variabel dengan cara yang sejalan dengan pertanyaan penelitian saya. Saya pikir menentukan metode untuk mendapatkan kesalahan standar yang akurat dan nilai-p adalah pertanyaan yang harus didahulukan. Bahkan jika Anda memilih untuk tidak bergantung pada asimptotik, selalu ada opsi untuk bootstrap atau mengubah asumsi distribusi.

Sebagai aturan umum, saya lebih suka korelasi Pearson karena (a) secara umum lebih selaras dengan minat teoretis saya; (B) memungkinkan perbandingan yang lebih langsung dari temuan di seluruh studi, karena sebagian besar studi di daerah saya melaporkan korelasi Pearson; dan (c) dalam banyak pengaturan terdapat perbedaan minimal antara koefisien korelasi Pearson dan Spearman.

Namun, ada situasi di mana saya pikir korelasi Pearson pada variabel mentah menyesatkan.

  • Pencilan: Pencilan bisa memiliki pengaruh besar pada korelasi Pearson. Banyak pencilan dalam pengaturan yang diterapkan mencerminkan kegagalan pengukuran atau faktor lain yang tidak ingin digeneralisasi oleh model. Salah satu opsi adalah untuk menghapus outlier seperti itu. Pencilan univariat tidak ada dengan Spearman rho karena semuanya dikonversi ke peringkat. Dengan demikian, Spearman lebih kuat.
  • Variabel sangat miring: Ketika mengkorelasikan variabel miring, variabel sangat miring, log atau transformasi lain sering membuat hubungan mendasar antara dua variabel lebih jelas (misalnya, ukuran otak dengan berat badan hewan). Dalam pengaturan seperti itu, metrik mentah mungkin bukan metrik yang paling berarti. Spearman rho memiliki efek yang mirip dengan transformasi dengan mengubah kedua variabel menjadi peringkat. Dari perspektif ini, Spearman rho dapat dilihat sebagai pendekatan cepat dan kotor (atau lebih positif, itu kurang subyektif) di mana Anda tidak perlu memikirkan transformasi yang optimal.

Dalam kedua kasus di atas, saya akan menyarankan para peneliti untuk mempertimbangkan strategi penyesuaian (misalnya, transformasi, penghapusan / penyesuaian outlier) sebelum menerapkan korelasi Pearson atau menggunakan Spearman rho.

Jeromy Anglim
sumber
Masalah dengan transformasi adalah bahwa, secara umum, itu juga mengubah kesalahan yang terkait dengan setiap titik, dan dengan demikian beratnya. Dan itu tidak menyelesaikan masalah pencilan itu.
skan
11

Diperbarui

Pertanyaannya meminta kita untuk memilih antara metode Pearson dan Spearman ketika normalitas dipertanyakan. Terbatas untuk masalah ini, saya pikir makalah berikut harus menginformasikan keputusan siapa pun:

r

r

Jika diminta untuk memilih antara salah satu dari Spearman dan Pearson ketika normalitas dilanggar, alternatif bebas distribusi layak didukung, yaitu metode Spearman.


Sebelumnya ..

Korelasi Spearman adalah ukuran korelasi berdasarkan peringkat; ini non-parametrik dan tidak didasarkan pada asumsi normalitas.

Distribusi sampel untuk korelasi Pearson memang mengasumsikan normal; khususnya ini berarti bahwa meskipun Anda dapat menghitungnya, kesimpulan berdasarkan pengujian signifikansi mungkin tidak masuk akal.

Seperti yang ditunjukkan Rob dalam komentar, dengan sampel besar ini bukan masalah. Dengan sampel kecil, di mana normalitas dilanggar, korelasi Spearman harus lebih disukai.

Perbarui Mulling atas komentar dan jawaban, menurut saya ini bermuara pada perdebatan tes non-parametrik vs parametrik biasa. Banyak literatur, misalnya dalam biostatistik, tidak berurusan dengan sampel besar. Saya biasanya tidak angkuh dengan mengandalkan asimptotik. Mungkin itu dibenarkan dalam kasus ini, tapi itu tidak jelas bagi saya.

ars
sumber
1
Tidak. Korelasi Pearson TIDAK mengasumsikan normal. Ini adalah perkiraan korelasi antara dua variabel acak kontinu dan merupakan penduga yang konsisten dalam kondisi yang relatif umum. Bahkan tes berdasarkan korelasi Pearson tidak memerlukan normalitas jika sampel cukup besar karena CLT.
Rob Hyndman
2
Saya mendapat kesan bahwa Pearson didefinisikan selama distribusi yang mendasarinya memiliki varian dan kovarian yang terbatas. Jadi, normalitas tidak diperlukan. Jika distribusi yang mendasarinya tidak normal maka statistik uji dapat memiliki distribusi yang berbeda tetapi itu adalah masalah sekunder dan tidak relevan dengan pertanyaan yang ada. Bukan begitu?
2
@Rob: Ya, kami selalu dapat menemukan solusi untuk membuat semuanya berjalan dengan sama. Hanya untuk menghindari metode Spearman - yang dapat ditangani oleh kebanyakan non-ahli statistik dengan perintah standar. Saya kira saran saya tetap menggunakan metode Spearman untuk sampel kecil di mana normalitas dipertanyakan. Tidak yakin apakah itu diperselisihkan di sini atau tidak.
ars
1
@ars. Saya akan menggunakan Spearman jika saya tertarik pada hubungan monotonik daripada linier, atau jika ada outlier atau tingkat kemiringan yang tinggi. Saya akan menggunakan Pearson untuk hubungan linier asalkan tidak ada outlier. Saya tidak berpikir ukuran sampel relevan dalam membuat pilihan.
Rob Hyndman
3
@Rob: Oke, terima kasih untuk diskusi. Saya setuju dengan bagian pertama, tetapi meragukan bagian terakhir, dan akan memasukkan bahwa ukuran hanya berperan karena asimptotik normal tidak berlaku. Sebagai contoh, Kowalski 1972 memiliki survei yang cukup bagus tentang sejarah di sekitar ini, dan menyimpulkan bahwa korelasi Pearson tidak sekuat pemikiran. Lihat: jstor.org/pss/2346598
ars