Apa yang ditunjukkan ketika korelasi Spearman adalah jumlah yang pasti kurang dari Pearson?

12

Saya memiliki banyak set data terkait. Korelasi pearson antara pasangan mereka biasanya lebih besar dari korelasi spearman. Itu menunjukkan korelasi apa pun yang linear, tetapi orang mungkin berharap bahwa bahkan jika pearson dan spearman itu sama. Apa artinya ketika ada kesenjangan yang pasti antara pearson dan korelasi spearman dan pearson lebih besar? Ini tampaknya menjadi fitur yang konsisten di seluruh dataset saya.

John Robertson
sumber
Pertanyaan yang sangat mirip dengan jawaban yang bagus di sini
Colin T Bowers

Jawaban:

14

Korelasi Spearman hanyalah korelasi Pearson menggunakan peringkat (statistik urutan) alih-alih nilai numerik yang sebenarnya. Jawaban atas pertanyaan Anda adalah mereka tidak mengukur hal yang sama. Pearson: tren linier, Spearman: tren monoton. Bahwa korelasi Pearson lebih tinggi hanya berarti korelasi linier lebih besar dari korelasi peringkat. Ini mungkin karena pengamatan yang berpengaruh pada ekor distribusi yang memiliki pengaruh besar relatif terhadap nilai peringkat mereka. Tes hubungan menggunakan korelasi Pearson memiliki kekuatan yang lebih tinggi ketika linearitas berlaku dalam data.

AdamO
sumber
1
Saya tahu bahwa spearman hanyalah pearon di barisan. Saya perlu melihat apakah ada rute lain yang bisa menyebabkan hal ini juga, tetapi pengamatan ekor yang berpengaruh lebih berkorelasi linier daripada sebagian besar data, tetapi yang kehilangan pengaruhnya saat diganti dengan peringkat mereka pasti akan menyebabkan saya apa adanya. melihat.
John Robertson
0

Korelasi Pearson mengasumsikan beberapa asumsi agar akurat: 1) Setiap variabel terdistribusi normal; 2) Homoscedasticity, varians dari setiap variabel tetap konstan; dan 3) Linearitas, artinya plot sebaran yang menggambarkan hubungan menunjukkan titik-titik pengelompokan data secara simetris di sekitar garis regresi.

Korelasi Spearman adalah alternatif nonparametrik untuk Pearson berdasarkan peringkat pengamatan. Korelasi Spearman memungkinkan Anda untuk mengendurkan ketiga asumsi tentang kumpulan data Anda dan memperoleh korelasi yang masih cukup akurat.

Apa yang disiratkan oleh data Anda adalah bahwa data tersebut mungkin rusak secara material satu atau lebih dari asumsi yang disebutkan secara material sehingga kedua korelasi tersebut berbeda secara signifikan.

Mengingat Anda memiliki kesenjangan besar antara kedua korelasi tersebut, Anda harus menyelidiki apakah variabel-variabel dari set data Anda terdistribusi normal, homoscedastic, dan linear dalam plot sebar.

Investigasi di atas akan memfasilitasi keputusan Anda tentang apakah koefisien korelasi Spearman atau Pearson lebih representatif.

Sympa
sumber
2
t
4
Salah. Kesimpulan tentang korelasi Pearson tidak memerlukan asumsi-asumsi ini untuk dipegang. Seseorang dapat memiliki hubungan lengkung linier dengan heteroscedastic, data tidak normal dan uji korelasi Pearson (yang setara dengan inferensi pada model regresi linier) diberdayakan untuk mendeteksi tren urutan pertama. Interpretasi korelasi Pearson sebagai kekuatan tren orde pertama masih berlaku. Ada beberapa keadaan di mana tren urutan pertama yang diukur oleh korelasi Pearson tidak memadai untuk analisis.
AdamO