Saya mendapatkan pertanyaan ini cukup sering dalam pekerjaan konsultasi statistik saya, yang saya pikir akan saya posting di sini. Saya punya jawaban, yang diposting di bawah, tetapi saya ingin mendengar apa yang orang lain katakan.
Pertanyaan: Jika Anda memiliki dua variabel yang tidak terdistribusi normal, haruskah Anda menggunakan Spearman rho untuk korelasinya?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
sumber
sumber
Jawaban:
Korelasi Pearson adalah ukuran hubungan linear antara dua variabel acak kontinu. Itu tidak menganggap normalitas meskipun ia mengasumsikan varian terbatas dan kovarians terbatas. Ketika variabel bivariat normal, korelasi Pearson memberikan deskripsi lengkap tentang hubungan tersebut.
Korelasi Spearman berlaku untuk peringkat dan memberikan ukuran hubungan monoton antara dua variabel acak kontinu. Ini juga berguna dengan data ordinal dan kuat untuk outlier (tidak seperti korelasi Pearson).
Distribusi koefisien korelasi akan tergantung pada distribusi yang mendasarinya, walaupun keduanya asimptotik normal karena teorema limit pusat.
sumber
Jangan lupa Kendall's tau ! Roger Newson berpendapat untuk keunggulan Kendall τ sebuah lebih Spearman korelasi r S sebagai ukuran berbasis rank korelasi dalam sebuah makalah yang teks lengkap sekarang tersedia bebas secara online:
Newson R. Parameter di balik statistik "nonparametrik": Kendall's tau, Somers 'D, dan median perbedaan . Stata Journal 2002; 2 (1): 45-64.
Dia merujuk (pada hal. 47) Kendall & Gibbons (1990) menyatakan bahwa "... interval kepercayaan untuk Spearman r S kurang dapat diandalkan dan kurang dapat ditafsirkan daripada interval kepercayaan untuk parameter τ -Kendall Kendall , tetapi sampel Spearman r S jauh lebih mudah dihitung tanpa komputer "(yang tidak lagi penting tentunya). Sayangnya saya tidak memiliki akses mudah ke salinan buku mereka:
Kendall, MG dan JD Gibbons. 1990. Metode Korelasi Peringkat . Edisi ke-5. London: Griffin.
sumber
Dari perspektif terapan, saya lebih peduli dengan memilih pendekatan yang merangkum hubungan antara dua variabel dengan cara yang sejalan dengan pertanyaan penelitian saya. Saya pikir menentukan metode untuk mendapatkan kesalahan standar yang akurat dan nilai-p adalah pertanyaan yang harus didahulukan. Bahkan jika Anda memilih untuk tidak bergantung pada asimptotik, selalu ada opsi untuk bootstrap atau mengubah asumsi distribusi.
Sebagai aturan umum, saya lebih suka korelasi Pearson karena (a) secara umum lebih selaras dengan minat teoretis saya; (B) memungkinkan perbandingan yang lebih langsung dari temuan di seluruh studi, karena sebagian besar studi di daerah saya melaporkan korelasi Pearson; dan (c) dalam banyak pengaturan terdapat perbedaan minimal antara koefisien korelasi Pearson dan Spearman.
Namun, ada situasi di mana saya pikir korelasi Pearson pada variabel mentah menyesatkan.
Dalam kedua kasus di atas, saya akan menyarankan para peneliti untuk mempertimbangkan strategi penyesuaian (misalnya, transformasi, penghapusan / penyesuaian outlier) sebelum menerapkan korelasi Pearson atau menggunakan Spearman rho.
sumber
Diperbarui
Pertanyaannya meminta kita untuk memilih antara metode Pearson dan Spearman ketika normalitas dipertanyakan. Terbatas untuk masalah ini, saya pikir makalah berikut harus menginformasikan keputusan siapa pun:
Jika diminta untuk memilih antara salah satu dari Spearman dan Pearson ketika normalitas dilanggar, alternatif bebas distribusi layak didukung, yaitu metode Spearman.
Sebelumnya ..
Korelasi Spearman adalah ukuran korelasi berdasarkan peringkat; ini non-parametrik dan tidak didasarkan pada asumsi normalitas.
Distribusi sampel untuk korelasi Pearson memang mengasumsikan normal; khususnya ini berarti bahwa meskipun Anda dapat menghitungnya, kesimpulan berdasarkan pengujian signifikansi mungkin tidak masuk akal.
Seperti yang ditunjukkan Rob dalam komentar, dengan sampel besar ini bukan masalah. Dengan sampel kecil, di mana normalitas dilanggar, korelasi Spearman harus lebih disukai.
Perbarui Mulling atas komentar dan jawaban, menurut saya ini bermuara pada perdebatan tes non-parametrik vs parametrik biasa. Banyak literatur, misalnya dalam biostatistik, tidak berurusan dengan sampel besar. Saya biasanya tidak angkuh dengan mengandalkan asimptotik. Mungkin itu dibenarkan dalam kasus ini, tapi itu tidak jelas bagi saya.
sumber