Distribusi korelasi sampel

8

Misalkan saya memiliki populasi besar titik data (x,y) dan bahwa korelasi Pearson adalah

corr(X,Y)=ρ

Apa yang bisa saya katakan tentang korelasi yang saya harapkan untuk diamati dalam sampel ukuran n? Jika korelasi sampelnya adalahρs, kira-kira sebarannya ρs? Adalahρs bias?

Jika kita membuat beberapa asumsi seperti normalitas, dapatkah kita menghitung fungsi kemungkinan yang tepat dari ρs sebagai fungsi dari ρ?

(Pada akhirnya, saya bertanya-tanya tentang masalah apakah korelasi tinggi yang diamati adalah kebetulan atau tidak, dan yang saya miliki hanyalah ukuran sampel dan korelasinya.)

Mark Eichenlaub
sumber
2
onestop memberikan jawaban yang mudah-mudahan akan memberi Anda cukup untuk melanjutkan. Jika Anda benar - benar ingin tahu tentang distribusi koefisien korelasi sampel itu sendiri, maka referensi yang pasti adalah: Hotelling, H. (1953). Cahaya baru pada koefisien korelasi dan transformasinya. Jurnal Masyarakat Statistik Kerajaan, Seri B, 15, 193-232. Perhatikan bahwa ini bukan bacaan ringan.
Wolfgang
Saya pikir grafik Anda tidak benar. Saya baru saja menggambar beberapa grafik distribusi yang berasal dari rumus Fisher yang menunjukkan bahwa itu berpusat dengan benar. Faktanya, cukup jelas dari rumusnya bahwa ia harus tidak berpihak secara asimototN. Bisakah Anda memposting inti matematika dari kode Anda?
onestop
@pada Tentu. Menambahkan kode Mathematica.
Mark Eichenlaub
Itu bukan bagaimana pdf berubah - ini sedikit lebih rumit. Lihat en.wikipedia.org/wiki/…
onestop
@onestop Tentu saja. Terima kasih. Saya menyadari ada masalah setelah saya memposting kode, tetapi saya perlu waktu beberapa saat untuk mencari cara memperbaikinya.
Mark Eichenlaub

Jawaban:

7

Mengutip artikel Wikipedia tentang transformasi Fisher :

Jika (X,Y) memiliki distribusi normal bivariat, dan jika (Xi,Yi) pasangan digunakan untuk membentuk koefisien korelasi sampel r independen untuk i=1,,n, kemudian

z=12ln1+r1r=arctanh(r)
kira-kira terdistribusi normal dengan rata-rata 12ln1+ρ1ρ, dan kesalahan standar 1N3, dimana N adalah ukuran sampel.
onestop
sumber
maaf tidak menerima. Ketika saya mencoba menggunakan jawaban ini, saya menemukan itu tidak berfungsi untuk situasi yang saya minati (koefisien korelasi tinggi).
Mark Eichenlaub
@ Mark, saya melakukan beberapa simulasi dengan R, semuanya cukup baik untuk korelasi 0,75
mpiktas
@mpikta Ya, Anda benar, terima kasih. Saya membuat kesalahan di buku catatan saya.
Mark Eichenlaub
1
Distribusi pastinya diketahui: diberikan oleh fungsi hypergeometrik .
whuber