Mengapa korelasi pangkat Pearson valid meskipun ada asumsi normalitas?

9

Saat ini saya membaca asumsi untuk korelasi Pearson. Asumsi penting untuk uji-t berikutnya tampaknya adalah bahwa kedua variabel berasal dari distribusi normal; jika tidak, maka penggunaan langkah-langkah alternatif seperti Spearman rho dianjurkan. Korelasi Spearman dihitung seperti korelasi Pearson, hanya menggunakan jajaran X dan Y, bukan X dan Y sendiri, benar?

Pertanyaan saya adalah: Jika variabel input ke dalam korelasi Pearson perlu didistribusikan secara normal, mengapa perhitungan korelasi Spearman valid walaupun variabel inputnya peringkat? Peringkat saya tentu saja tidak berasal dari distribusi normal ...

Satu-satunya penjelasan yang saya buat sejauh ini adalah bahwa signifikansi rho mungkin diuji secara berbeda dari t-test korelasi Pearson (dengan cara yang tidak memerlukan normalitas), tetapi sejauh ini saya belum menemukan formula. Namun, ketika saya menjalankan beberapa contoh, nilai p untuk rho dan untuk uji t korelasi pangkat Pearson selalu cocok, simpan untuk beberapa digit terakhir. Bagi saya ini tidak terlihat seperti prosedur yang sangat berbeda.

Penjelasan dan ide apa pun yang Anda miliki mungkin akan dihargai!

GST95
sumber

Jawaban:

7

Normalitas tidak diperlukan untuk menghitung korelasi Pearson; hanya saja beberapa bentuk kesimpulan tentang jumlah populasi yang sesuai didasarkan pada asumsi normal (CI dan tes hipotesis).

Jika Anda tidak memiliki normalitas, properti tersirat dari bentuk inferensi tertentu tidak akan berlaku.

Dalam kasus korelasi Spearman, Anda tidak memiliki normalitas, tetapi itu bagus karena perhitungan inferensi untuk korelasi Spearman (seperti tes hipotesis) tidak didasarkan pada asumsi normalitas.

Mereka diturunkan berdasarkan seperangkat peringkat berpasangan dari distribusi bivariat berkelanjutan; dalam hal ini uji hipotesis menggunakan distribusi permutasi dari statistik uji berdasarkan peringkat.

Ketika asumsi biasa untuk inferensi dengan hold korelasi Pearson (normalitas bivariat) korelasi Spearman biasanya sangat dekat (meskipun rata-rata sedikit lebih dekat ke 0).

(Jadi ketika Anda bisa menggunakan Pearson, Spearman sering melakukannya dengan cukup baik. Jika Anda memiliki data normal yang hampir bivariat terlepas dari beberapa kontaminasi dengan beberapa proses lain (yang menyebabkan pencilan), Spearman akan menjadi cara yang lebih kuat untuk memperkirakan korelasi dalam distribusi yang tidak terkontaminasi.)

Glen_b -Reinstate Monica
sumber
Terima kasih, referensi ke distribusi permutasi sangat membantu!
GST95
"Spearman akan menjadi cara yang lebih kuat untuk memperkirakan korelasinya" Untuk meningkatkan, Spearman akan memperkirakan asosiasi , BUKAN korelasi linear.
landroni
1
@ Landroni Jika saya berbicara tentang Spearman secara umum, Anda benar mengkarakterisasi apa yang Spearman lakukan - tetapi dalam kalimat itu saya secara eksplisit berbicara tentang membandingkan dua perkiraan korelasi populasi di bawah kontaminasi, dan maksud saya apa yang saya katakan di sana secara harfiah. Bayangkan bivariat normal dengan korelasi dan kemudian menambahkan outlier benar-benar ekstrim. Jika saya ingin memperkirakan dalam situasi itu, Spearman adalah estimator lebih kuat dari dari korelasi Pearson. ρ ρρρρ
Glen_b -Reinstate Monica
1
@ Landroni ... Situasi seperti itu dapat terjadi di mana Anda memiliki proses utama yang berperilaku baik dan beberapa proses pencemaran yang bisa sangat ekstrem tetapi hanya terjadi sesekali. Jika Anda tertarik untuk memperkirakan korelasi dari proses yang tidak terkontaminasi, korelasi Pearson sangat rentan terhadap kontaminasi, pada tingkat yang jauh lebih besar daripada Spearman.
Glen_b -Reinstate Monica
2

ketika saya menjalankan beberapa contoh, nilai p untuk rho dan untuk uji t korelasi pangkat Pearson selalu cocok, simpan untuk beberapa digit terakhir

Nah Anda telah menjalankan contoh yang salah kalau begitu!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Vektor adan bmemiliki korelasi yang baik, tetapi jauh dari linear sempurna (Pearson). Namun, mereka memiliki korelasi peringkat yang sempurna . Lihat - untuk Spearman , dalam hal ini, itu penting tidak jika digit terakhir adalah 8.1, 9, 90 atau 9000 (! Mencobanya), itu penting hanya jika itu lebih besar dari 8 . Itulah yang membuat perbedaan peringkat berkorelasi. ρb

Sebaliknya, sementara adan bmemiliki korelasi peringkat sempurna, koefisien korelasi Pearson mereka lebih kecil dari 1. Ini menunjukkan bahwa korelasi Pearson tidak mencerminkan peringkat.
Korelasi Pearson mencerminkan fungsi linier, korelasi peringkat hanya fungsi monotonik. Dalam hal data normal, keduanya akan sangat mirip satu sama lain, dan saya menduga inilah sebabnya data Anda tidak menunjukkan perbedaan besar antara Spearman dan Pearson.

Untuk contoh praktis, pertimbangkan hal berikut; Anda ingin melihat apakah orang yang lebih tinggi menimbang lebih banyak. Ya, ini pertanyaan konyol ... tapi anggap saja ini yang Anda pedulikan. Sekarang, massa tidak skala secara linear dengan berat, karena orang tinggi juga lebih lebar daripada orang kecil; jadi berat badan bukanlah fungsi linear dari tinggi badan. Seseorang yang 10% lebih tinggi dari Anda (rata-rata) lebih dari 10% lebih berat. Inilah sebabnya mengapa indeks massa / tubuh menggunakan kubus dalam penyebut.
Akibatnya, Anda akan menganggap korelasi linier untuk secara tidak akurat mencerminkan hubungan tinggi / berat badan. Sebaliknya, korelasi peringkat tidak peka terhadap hukum fisika dan biologi yang mengganggu dalam kasus ini; itu tidak mencerminkan jika orang tumbuh lebih berat secara linear ketika mereka bertambah tinggi, itu hanya mencerminkan jika orang yang lebih tinggi (pangkat lebih tinggi pada satu skala) lebih berat (pangkat lebih tinggi pada skala lainnya).

Contoh yang lebih umum adalah peringkat kuesioner seperti Likert, seperti orang menilai sesuatu sebagai "sempurna / baik / layak / biasa-biasa saja / buruk / buruk". "sempurna" adalah jauh dari "layak" seperti "layak" adalah dari "buruk" dalam skala , tetapi dapatkah kita benar-benar mengatakan bahwa jarak antara keduanya sama? Korelasi linier belum tentu sesuai. Korelasi peringkat lebih alami.

Untuk lebih langsung menjawab pertanyaan Anda: tidak, nilai p untuk korelasi Pearson dan Spearman tidak boleh dihitung secara berbeda . Banyak yang berbeda tentang keduanya, baik secara konseptual maupun numerik, tetapi jika statistik uji ekuivalen, nilai p akan setara.

Pada pertanyaan tentang asumsi normalitas dalam korelasi Pearson, lihat ini .
Secara lebih umum, orang lain telah menguraikan jauh lebih baik daripada yang saya bisa mengenai topik korelasi parametrik vs non-parametrik (juga lihat di sini ), dan apa artinya ini mengenai asumsi distribusi.

jona
sumber
Terima kasih! Lain kali saya pasti akan bereksperimen dengan contoh lebih banyak. :)
GST95
1
Tidak, tunggu, sebenarnya itu bukan pertanyaan saya. Saya tidak membandingkan metode = "pearson" dengan versi metode = "spearman" dari x dan y. Saya membandingkan cor.test(x, y, method = "spearman")dengan cor.test(rank(x), rank(y), method = "pearson"). Perkiraan ini akan sama tidak peduli data mana yang dipilih. Meskipun begitu, terima kasih! :)
GST95
@ GST95, korelasi Spearman adalah korelasi Pearson yang dilakukan pada data yang diubah peringkat. Dua "metode" Anda benar-benar metode yang persis sama.
Dennis
@ Dennis, tepatnya, saya tidak membandingkan koefisien rho (identik) tetapi nilai-p untuk melihat apakah keduanya diperoleh dengan uji-t.
GST95