Saya memiliki banyak set data terkait. Korelasi pearson antara pasangan mereka biasanya lebih besar dari korelasi spearman. Itu menunjukkan korelasi apa pun yang linear, tetapi orang mungkin berharap bahwa bahkan jika pearson dan spearman itu sama. Apa artinya ketika ada kesenjangan yang pasti antara pearson dan korelasi spearman dan pearson lebih besar? Ini tampaknya menjadi fitur yang konsisten di seluruh dataset saya.
correlation
spearman-rho
pearson-r
John Robertson
sumber
sumber
Jawaban:
Korelasi Spearman hanyalah korelasi Pearson menggunakan peringkat (statistik urutan) alih-alih nilai numerik yang sebenarnya. Jawaban atas pertanyaan Anda adalah mereka tidak mengukur hal yang sama. Pearson: tren linier, Spearman: tren monoton. Bahwa korelasi Pearson lebih tinggi hanya berarti korelasi linier lebih besar dari korelasi peringkat. Ini mungkin karena pengamatan yang berpengaruh pada ekor distribusi yang memiliki pengaruh besar relatif terhadap nilai peringkat mereka. Tes hubungan menggunakan korelasi Pearson memiliki kekuatan yang lebih tinggi ketika linearitas berlaku dalam data.
sumber
Korelasi Pearson mengasumsikan beberapa asumsi agar akurat: 1) Setiap variabel terdistribusi normal; 2) Homoscedasticity, varians dari setiap variabel tetap konstan; dan 3) Linearitas, artinya plot sebaran yang menggambarkan hubungan menunjukkan titik-titik pengelompokan data secara simetris di sekitar garis regresi.
Korelasi Spearman adalah alternatif nonparametrik untuk Pearson berdasarkan peringkat pengamatan. Korelasi Spearman memungkinkan Anda untuk mengendurkan ketiga asumsi tentang kumpulan data Anda dan memperoleh korelasi yang masih cukup akurat.
Apa yang disiratkan oleh data Anda adalah bahwa data tersebut mungkin rusak secara material satu atau lebih dari asumsi yang disebutkan secara material sehingga kedua korelasi tersebut berbeda secara signifikan.
Mengingat Anda memiliki kesenjangan besar antara kedua korelasi tersebut, Anda harus menyelidiki apakah variabel-variabel dari set data Anda terdistribusi normal, homoscedastic, dan linear dalam plot sebar.
Investigasi di atas akan memfasilitasi keputusan Anda tentang apakah koefisien korelasi Spearman atau Pearson lebih representatif.
sumber