Saat ini saya membaca asumsi untuk korelasi Pearson. Asumsi penting untuk uji-t berikutnya tampaknya adalah bahwa kedua variabel berasal dari distribusi normal; jika tidak, maka penggunaan langkah-langkah alternatif seperti Spearman rho dianjurkan. Korelasi Spearman dihitung seperti korelasi Pearson, hanya menggunakan jajaran X dan Y, bukan X dan Y sendiri, benar?
Pertanyaan saya adalah: Jika variabel input ke dalam korelasi Pearson perlu didistribusikan secara normal, mengapa perhitungan korelasi Spearman valid walaupun variabel inputnya peringkat? Peringkat saya tentu saja tidak berasal dari distribusi normal ...
Satu-satunya penjelasan yang saya buat sejauh ini adalah bahwa signifikansi rho mungkin diuji secara berbeda dari t-test korelasi Pearson (dengan cara yang tidak memerlukan normalitas), tetapi sejauh ini saya belum menemukan formula. Namun, ketika saya menjalankan beberapa contoh, nilai p untuk rho dan untuk uji t korelasi pangkat Pearson selalu cocok, simpan untuk beberapa digit terakhir. Bagi saya ini tidak terlihat seperti prosedur yang sangat berbeda.
Penjelasan dan ide apa pun yang Anda miliki mungkin akan dihargai!
Nah Anda telah menjalankan contoh yang salah kalau begitu!
Vektorρ
a
danb
memiliki korelasi yang baik, tetapi jauh dari linear sempurna (Pearson). Namun, mereka memiliki korelasi peringkat yang sempurna . Lihat - untuk Spearman , dalam hal ini, itu penting tidak jika digit terakhir adalah 8.1, 9, 90 atau 9000 (! Mencobanya), itu penting hanya jika itu lebih besar dari 8 . Itulah yang membuat perbedaan peringkat berkorelasi.b
Sebaliknya, sementara
a
danb
memiliki korelasi peringkat sempurna, koefisien korelasi Pearson mereka lebih kecil dari 1. Ini menunjukkan bahwa korelasi Pearson tidak mencerminkan peringkat.Korelasi Pearson mencerminkan fungsi linier, korelasi peringkat hanya fungsi monotonik. Dalam hal data normal, keduanya akan sangat mirip satu sama lain, dan saya menduga inilah sebabnya data Anda tidak menunjukkan perbedaan besar antara Spearman dan Pearson.
Untuk contoh praktis, pertimbangkan hal berikut; Anda ingin melihat apakah orang yang lebih tinggi menimbang lebih banyak. Ya, ini pertanyaan konyol ... tapi anggap saja ini yang Anda pedulikan. Sekarang, massa tidak skala secara linear dengan berat, karena orang tinggi juga lebih lebar daripada orang kecil; jadi berat badan bukanlah fungsi linear dari tinggi badan. Seseorang yang 10% lebih tinggi dari Anda (rata-rata) lebih dari 10% lebih berat. Inilah sebabnya mengapa indeks massa / tubuh menggunakan kubus dalam penyebut.
Akibatnya, Anda akan menganggap korelasi linier untuk secara tidak akurat mencerminkan hubungan tinggi / berat badan. Sebaliknya, korelasi peringkat tidak peka terhadap hukum fisika dan biologi yang mengganggu dalam kasus ini; itu tidak mencerminkan jika orang tumbuh lebih berat secara linear ketika mereka bertambah tinggi, itu hanya mencerminkan jika orang yang lebih tinggi (pangkat lebih tinggi pada satu skala) lebih berat (pangkat lebih tinggi pada skala lainnya).
Contoh yang lebih umum adalah peringkat kuesioner seperti Likert, seperti orang menilai sesuatu sebagai "sempurna / baik / layak / biasa-biasa saja / buruk / buruk". "sempurna" adalah jauh dari "layak" seperti "layak" adalah dari "buruk" dalam skala , tetapi dapatkah kita benar-benar mengatakan bahwa jarak antara keduanya sama? Korelasi linier belum tentu sesuai. Korelasi peringkat lebih alami.
Untuk lebih langsung menjawab pertanyaan Anda: tidak, nilai p untuk korelasi Pearson dan Spearman tidak boleh dihitung secara berbeda . Banyak yang berbeda tentang keduanya, baik secara konseptual maupun numerik, tetapi jika statistik uji ekuivalen, nilai p akan setara.
Pada pertanyaan tentang asumsi normalitas dalam korelasi Pearson, lihat ini .
Secara lebih umum, orang lain telah menguraikan jauh lebih baik daripada yang saya bisa mengenai topik korelasi parametrik vs non-parametrik (juga lihat di sini ), dan apa artinya ini mengenai asumsi distribusi.
sumber
cor.test(x, y, method = "spearman")
dengancor.test(rank(x), rank(y), method = "pearson")
. Perkiraan ini akan sama tidak peduli data mana yang dipilih. Meskipun begitu, terima kasih! :)