Seberapa kuat koefisien korelasi Pearson terhadap pelanggaran normalitas?

20

Data untuk beberapa jenis variabel cenderung tidak normal ketika diukur dalam populasi tertentu (misalnya tingkat depresi pada populasi orang dengan Gangguan Depresif Utama). Mengingat bahwa Pearson mengasumsikan normal, seberapa kuat statistik uji dalam kondisi non-normal?

Saya memiliki sejumlah variabel yang saya ingin koefisien korelasi, tetapi kemiringan Z untuk beberapa variabel tersebut signifikan pada p <0,001 (dan itu untuk sampel yang relatif kecil). Saya sudah mencoba beberapa transformasi, tetapi peningkatan dalam distribusi hanya marjinal di terbaik.

Apakah saya harus tetap dengan analisis non-parametrik? Dan bukan hanya untuk korelasi, tetapi untuk jenis analisis lainnya juga?

Archaeopteryx
sumber
Tunggu, koefisien korelasi Pearson mengasumsikan normal? Saya tidak berpikir demikian, dan saya telah menggunakannya pada data yang tidak normal. Hanya saja tidak kuat untuk beberapa hal yang lebih sering terjadi dalam beberapa situasi tidak normal, tetapi ada banyak situasi tidak normal di mana saya melihat tidak ada masalah dengan menggunakan koefisien korelasi Pearson.
Douglas Zare
1
Korelasi Pearson mengasumsikan normalitas adalah apa yang diklaim oleh banyak teks statistik. Saya telah mendengar di tempat lain bahwa normalitas adalah asumsi yang tidak perlu untuk r Pearson. Ketika saya menjalankan analisis, baik Pearson dan Spearman menghasilkan hasil yang relatif sama.
Archaeopteryx
Koefisien korelasi peringkat Spearman adalah koefisien korelasi Pearson yang diterapkan pada peringkat tidak normal. Saya masih tidak tahu dalam arti apa Anda percaya Pearson memerlukan normalitas. Mungkin Anda dapat mengatakan beberapa hal tambahan jika Anda menggunakannya pada distribusi normal multivarian.
Douglas Zare
Saya hanya menggunakannya untuk korelasi bivariat sederhana. Saya tidak yakin mengapa dikatakan bahwa diperlukan normalitas. Teks statistik yang saya baca selalu mencantumkan normalitas sebagai asumsi korelasi Pearson dan menyarankan untuk menggunakan Spearman untuk kondisi di mana non-normalitas berlaku.
Archaeopteryx

Jawaban:

20

Jawaban singkat: Sangat tidak kuat. Korelasi adalah ukuran ketergantungan linear , dan ketika satu variabel tidak dapat ditulis sebagai fungsi linear dari yang lain (dan masih memiliki distribusi marjinal yang diberikan), Anda tidak dapat memiliki korelasi sempurna (positif atau negatif). Bahkan, nilai-nilai korelasi yang mungkin dapat sangat dibatasi.

Masalahnya adalah bahwa sementara korelasi populasi selalu antara dan , kisaran pasti yang dapat dicapai sangat tergantung pada distribusi marjinal. Bukti dan demonstrasi cepat:111

Rentang korelasi yang dapat dicapai

Jika memiliki fungsi distribusi dan fungsi distribusi marginal dan , terdapat beberapa batas atas dan bawah yang agak bagus untuk , disebut batas Fréchet. Ini adalah (Coba buktikan; ini tidak terlalu sulit.)H F G H H - ( x , y ) H ( x , y ) H + ( x , y ) , H - ( x , y )(X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

Batasan itu sendiri adalah fungsi distribusi. Biarkan memiliki distribusi seragam. Batas atas adalah fungsi distribusi dan batas bawah adalah fungsi distribusi .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U(X,Y)=(F-(U),G-(U))(F-(-U),G-(1-U))

Sekarang, menggunakan varian ini pada rumus untuk kovarians, kita melihat bahwa kita memperoleh korelasi maksimum dan minimum ketika masing-masing sama dengan dan , yaitu, ketika adalah (positif atau negatif, masing-masing ) fungsi monoton dari .H H + H - Y X

Cov(X,Y)=H(x,y)-F(x)G(y)dxdy,
HH+H-YX

Contohnya

Berikut adalah beberapa contoh (tanpa bukti):

  1. Ketika dan terdistribusi secara normal, kita memperoleh maksimum dan minimum ketika memiliki biasa distribusi normal bivariat mana ditulis sebagai fungsi linear dari . Yaitu, kita mendapatkan maksimum untuk Di sini batas-batasnya adalah (tentu saja) dan , tidak peduli apa arti dan varian dan miliki.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY(X,Y)YX-11XY

    Y=μY+σYX-μXσX.
    -11XY
  2. Ketika dan memiliki distribusi lognormal, batas bawah tidak pernah dapat dicapai, karena itu menyiratkan bahwa dapat ditulis untuk beberapa dan positif , dan tidak pernah bisa negatif. Ada rumus (sedikit jelek) untuk batas yang tepat, tapi izinkan saya hanya memberikan kasus khusus. Ketika dan memiliki distribusi lognormal standar (artinya ketika eksponensial, mereka adalah standar normal), kisaran yang dapat dicapai adalah . (Secara umum, batas atas juga dibatasi.)XYYY=Sebuah-bXSebuahbYXY[-1/e,1][-0,37,1]

  3. Ketika memiliki distribusi normal standar dan memiliki distribusi lognormal standar, batas korelasinya adalah XY

    ±1e-10,76.

Perhatikan bahwa semua batas adalah untuk korelasi populasi . Korelasi sampel dapat dengan mudah melampaui batas, terutama untuk sampel kecil (contoh cepat: ukuran sampel 2).

Memperkirakan batas korelasi

Sebenarnya cukup mudah untuk memperkirakan batas atas dan bawah pada korelasi jika Anda dapat mensimulasikan dari distribusi marjinal. Untuk contoh terakhir di atas, kita dapat menggunakan kode R ini:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Jika kami hanya memiliki data aktual dan tidak tahu distribusi marjinal, kami masih dapat menggunakan metode di atas. Bukan masalah bahwa variabel-variabelnya tergantung selama pasangan pengamatan itu tergantung. Tetapi membantu memiliki banyak pasangan pengamatan.

Mengubah data

Tentu saja mungkin untuk mengubah data menjadi (secara marginal) terdistribusi normal dan kemudian menghitung korelasi pada data yang ditransformasikan. Masalahnya adalah salah satu interpretabilitas. (Dan mengapa menggunakan distribusi normal bukannya setiap lain distribusi di mana  dapat menjadi fungsi linear dari ?) Untuk data yang sedang bivariat terdistribusi secara normal, korelasi memiliki interpretasi yang bagus (persegi adalah varians dari satu variabel dijelaskan oleh yang lain ). Ini tidak terjadi di sini.YX

Apa yang sebenarnya Anda lakukan di sini adalah menciptakan ukuran baru ketergantungan yang tidak bergantung pada distribusi marjinal; yaitu, Anda membuat ukuran ketergantungan berbasis kopula . Sudah ada beberapa ukuran seperti itu, Spearman  ρ dan Kendall's  τ menjadi yang paling terkenal. (Jika Anda benar-benar tertarik pada konsep ketergantungan, itu bukan ide yang buruk untuk melihat ke dalam copulas.)

Kesimpulannya

Beberapa pemikiran dan saran terakhir: Hanya dengan melihat korelasi memiliki satu masalah besar: Ini membuat Anda berhenti berpikir. Sebaliknya, melihat plot pencar sering membuat Anda mulai berpikir. Karenanya, saran utama saya adalah memeriksa plot pencar dan mencoba memodelkan ketergantungan secara eksplisit.

Yang mengatakan, jika Anda memerlukan ukuran seperti korelasi sederhana, saya hanya akan menggunakan ρ Spearman  (dan interval kepercayaan terkait dan tes). Kisarannya tidak terbatas. Namun sangat waspada terhadap ketergantungan non-monoton. The artikel Wikipedia pada korelasi memiliki beberapa plot yang bagus menggambarkan potensi masalah.

Karl Ove Hufthammer
sumber
1
+1 Kontribusi yang sangat bagus ini jelas mengatasi beberapa masalah berulang yang terkait dengan korelasi. Saya terutama menghargai komentar dalam paragraf penutup pertama tentang berhenti / mulai berpikir.
whuber
Akankah ketidakberdayaan itu tetap bahkan tanpa gejala? Jika demikian, apakah wiki salah dalam mengatakan bahwa "[Distribusi t Student untuk transformasi r sederhana] juga berlaku kira-kira walaupun nilai yang diamati tidak normal, asalkan ukuran sampel tidak terlalu kecil"?
maks.
5

Seperti apa distribusi dari variabel-variabel ini (di luar miring)? Jika satu-satunya ketidaknormalan adalah kemiringan, maka transformasi semacam itu harus membantu. Tetapi jika variabel-variabel ini memiliki banyak lumping, maka tidak ada transformasi yang akan membuatnya normal. Jika variabel tidak kontinu, hal yang sama juga benar.

Seberapa kuat korelasi dengan pelanggaran? Lihatlah Kuartet Anscombe. Ini menggambarkan beberapa masalah dengan cukup baik.

Adapun jenis analisis lain, itu tergantung pada analisis. Jika variabel miring adalah variabel independen dalam regresi, misalnya, mungkin tidak ada masalah sama sekali - Anda perlu melihat residu.

Peter Flom - Pasang kembali Monica
sumber
1
Beberapa variabel juga memiliki masalah dengan kurtosis, tetapi kemiringan adalah masalah terbesar. Saya sudah mencoba transformasi root dan log kuadrat pada variabel masalah, tetapi mereka tidak meningkat banyak. Bahkan, distribusi tampaknya terlihat hampir persis sama, tetapi dengan tumpukan skor yang lebih besar.
Archaeopteryx
1
Sepertinya sangat aneh. Bisakah Anda memposting mean, median, skewness, kurtosis dari variabel yang dipertanyakan? Atau (bahkan lebih baik) sebidang kepadatan itu?
Peter Flom - Kembalikan Monica
6
Terlepas dari apakah distribusi (X, Y) adalah normal bivariat atau tidak, korelasi Pearson adalah ukuran tingkat linearitas. Distribusi probabilitas untuk estimasi sampel akan tergantung pada normalitas.
Michael R. Chernick
3
Variabel-variabel itu tidak terlalu condong. Anda dapat membiarkan mereka apa adanya.
Peter Flom - Reinstate Monica
3
Jangan khawatir tentang signifikansi di sini. Biasanya, condong dan kurtosis yang <-2 atau> 2 dianggap mungkin perlu transformasi. Lebih baik lagi adalah dengan melihat grafik misalnya plot normal kuantil dan plot kepadatan w / kernel untuk melihat apa yang terjadi.
Peter Flom - Reinstate Monica