Data untuk beberapa jenis variabel cenderung tidak normal ketika diukur dalam populasi tertentu (misalnya tingkat depresi pada populasi orang dengan Gangguan Depresif Utama). Mengingat bahwa Pearson mengasumsikan normal, seberapa kuat statistik uji dalam kondisi non-normal?
Saya memiliki sejumlah variabel yang saya ingin koefisien korelasi, tetapi kemiringan Z untuk beberapa variabel tersebut signifikan pada p <0,001 (dan itu untuk sampel yang relatif kecil). Saya sudah mencoba beberapa transformasi, tetapi peningkatan dalam distribusi hanya marjinal di terbaik.
Apakah saya harus tetap dengan analisis non-parametrik? Dan bukan hanya untuk korelasi, tetapi untuk jenis analisis lainnya juga?
correlation
Archaeopteryx
sumber
sumber
Jawaban:
Jawaban singkat: Sangat tidak kuat. Korelasi adalah ukuran ketergantungan linear , dan ketika satu variabel tidak dapat ditulis sebagai fungsi linear dari yang lain (dan masih memiliki distribusi marjinal yang diberikan), Anda tidak dapat memiliki korelasi sempurna (positif atau negatif). Bahkan, nilai-nilai korelasi yang mungkin dapat sangat dibatasi.
Masalahnya adalah bahwa sementara korelasi populasi selalu antara dan , kisaran pasti yang dapat dicapai sangat tergantung pada distribusi marjinal. Bukti dan demonstrasi cepat:1- 1 1
Rentang korelasi yang dapat dicapai
Jika memiliki fungsi distribusi dan fungsi distribusi marginal dan , terdapat beberapa batas atas dan bawah yang agak bagus untuk , disebut batas Fréchet. Ini adalah (Coba buktikan; ini tidak terlalu sulit.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y) H F G H
Batasan itu sendiri adalah fungsi distribusi. Biarkan memiliki distribusi seragam. Batas atas adalah fungsi distribusi dan batas bawah adalah fungsi distribusi .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U ( X, Y) = ( F-( U) , G-( U) ) ( F-( - U) , G-( 1 - U) )
Sekarang, menggunakan varian ini pada rumus untuk kovarians, kita melihat bahwa kita memperoleh korelasi maksimum dan minimum ketika masing-masing sama dengan dan , yaitu, ketika adalah (positif atau negatif, masing-masing ) fungsi monoton dari .H H + H - Y X
Contohnya
Berikut adalah beberapa contoh (tanpa bukti):
Ketika dan terdistribusi secara normal, kita memperoleh maksimum dan minimum ketika memiliki biasa distribusi normal bivariat mana ditulis sebagai fungsi linear dari . Yaitu, kita mendapatkan maksimum untuk Di sini batas-batasnya adalah (tentu saja) dan , tidak peduli apa arti dan varian dan miliki.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XX Y ( X, Y) Y X -11XY
Ketika dan memiliki distribusi lognormal, batas bawah tidak pernah dapat dicapai, karena itu menyiratkan bahwa dapat ditulis untuk beberapa dan positif , dan tidak pernah bisa negatif. Ada rumus (sedikit jelek) untuk batas yang tepat, tapi izinkan saya hanya memberikan kasus khusus. Ketika dan memiliki distribusi lognormal standar (artinya ketika eksponensial, mereka adalah standar normal), kisaran yang dapat dicapai adalah . (Secara umum, batas atas juga dibatasi.)X Y Y Y= a - b X Sebuah b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Ketika memiliki distribusi normal standar dan memiliki distribusi lognormal standar, batas korelasinya adalahX Y
Perhatikan bahwa semua batas adalah untuk korelasi populasi . Korelasi sampel dapat dengan mudah melampaui batas, terutama untuk sampel kecil (contoh cepat: ukuran sampel 2).
Memperkirakan batas korelasi
Sebenarnya cukup mudah untuk memperkirakan batas atas dan bawah pada korelasi jika Anda dapat mensimulasikan dari distribusi marjinal. Untuk contoh terakhir di atas, kita dapat menggunakan kode R ini:
Jika kami hanya memiliki data aktual dan tidak tahu distribusi marjinal, kami masih dapat menggunakan metode di atas. Bukan masalah bahwa variabel-variabelnya tergantung selama pasangan pengamatan itu tergantung. Tetapi membantu memiliki banyak pasangan pengamatan.
Mengubah data
Tentu saja mungkin untuk mengubah data menjadi (secara marginal) terdistribusi normal dan kemudian menghitung korelasi pada data yang ditransformasikan. Masalahnya adalah salah satu interpretabilitas. (Dan mengapa menggunakan distribusi normal bukannya setiap lain distribusi di mana dapat menjadi fungsi linear dari ?) Untuk data yang sedang bivariat terdistribusi secara normal, korelasi memiliki interpretasi yang bagus (persegi adalah varians dari satu variabel dijelaskan oleh yang lain ). Ini tidak terjadi di sini.Y X
Apa yang sebenarnya Anda lakukan di sini adalah menciptakan ukuran baru ketergantungan yang tidak bergantung pada distribusi marjinal; yaitu, Anda membuat ukuran ketergantungan berbasis kopula . Sudah ada beberapa ukuran seperti itu, Spearman ρ dan Kendall's τ menjadi yang paling terkenal. (Jika Anda benar-benar tertarik pada konsep ketergantungan, itu bukan ide yang buruk untuk melihat ke dalam copulas.)
Kesimpulannya
Beberapa pemikiran dan saran terakhir: Hanya dengan melihat korelasi memiliki satu masalah besar: Ini membuat Anda berhenti berpikir. Sebaliknya, melihat plot pencar sering membuat Anda mulai berpikir. Karenanya, saran utama saya adalah memeriksa plot pencar dan mencoba memodelkan ketergantungan secara eksplisit.
Yang mengatakan, jika Anda memerlukan ukuran seperti korelasi sederhana, saya hanya akan menggunakan ρ Spearman (dan interval kepercayaan terkait dan tes). Kisarannya tidak terbatas. Namun sangat waspada terhadap ketergantungan non-monoton. The artikel Wikipedia pada korelasi memiliki beberapa plot yang bagus menggambarkan potensi masalah.
sumber
Seperti apa distribusi dari variabel-variabel ini (di luar miring)? Jika satu-satunya ketidaknormalan adalah kemiringan, maka transformasi semacam itu harus membantu. Tetapi jika variabel-variabel ini memiliki banyak lumping, maka tidak ada transformasi yang akan membuatnya normal. Jika variabel tidak kontinu, hal yang sama juga benar.
Seberapa kuat korelasi dengan pelanggaran? Lihatlah Kuartet Anscombe. Ini menggambarkan beberapa masalah dengan cukup baik.
Adapun jenis analisis lain, itu tergantung pada analisis. Jika variabel miring adalah variabel independen dalam regresi, misalnya, mungkin tidak ada masalah sama sekali - Anda perlu melihat residu.
sumber