Nilai korelasi palsu yang diharapkan

12

Kami menarik sampel , masing-masing ukuran , secara independen dari distribusi Normal .n ( μ , σ 2 )Nn(μ,σ2)

Dari sampel kami kemudian memilih 2 sampel yang memiliki korelasi Pearson tertinggi (absolut) satu sama lain.N

Berapa nilai yang diharapkan dari korelasi ini?

Terima kasih [PS Ini bukan pekerjaan rumah]

P Sellaz
sumber
2
(+1) Ini akan membuat pertanyaan pekerjaan rumah yang cukup menantang :-). Apakah Anda memerlukan jawaban umum atau dapatkah Anda (mungkin) memusatkan perhatian pada nilai-nilai spesifik atau ? Misalnya, dimungkinkan untuk mengembangkan perkiraan yang baik ketika jauh lebih besar dari ; pendekatan yang berbeda akan diperlukan dalam kasus lain. n n NNnnN
whuber
1
Saya berharap untuk jawaban umum, tetapi di mana asumsi akan baik-baik saja! Untuk nilai-nilai spesifik dan , itu tidak akan begitu menarik, karena saya dapat melihat kasus-kasus tertentu dengan simulasi (itulah yang saya lakukan saat ini), tetapi mungkin masih menarik. N nn>>NNn
P Sellaz
1
Saya pikir solusi umum dari utilitas nyata mungkin tidak mungkin, meskipun saya bisa saja salah. Ini cukup terkait erat dengan beberapa masalah terbuka pada antarmuka geometri dan aljabar linier. Dalam aplikasi, kebutuhan untuk informasi tentang jumlah tersebut muncul, misalnya, dalam penginderaan terkompresi.
kardinal
1
FWIW, ini adalah hasil dari simulasi yang baru saja saya jalankan: menggunakan Normal (0,1), saya menemukan bahwa korelasi rata-rata, (lebih dari 1000 simulasi), dan jumlah sampel kira-kira terkait dengan untuk dan menggunakan model regresi linier. Model fit dan diagnosa biasa cukup baik. Saya juga menemukan bahwa korelasi rata-rata kira-kira terdistribusi normal (meskipun sedikit condong ke kanan). N ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

Jawaban:

9

Saya menemukan artikel berikut, yang membahas masalah ini: Jiang, Tiefeng (2004). Distribusi Asimptotik dari Entri Terbesar dari Contoh Korelasi Sampel. The Annals of Applied Probability, 14 (2), 865-880

Jiang menunjukkan distribusi asimptotik statistik, di mana adalah korelasi antara vektor acak ke - dan ke- dari panjang (dengan ), adalahLn=max1i<jN|ρij| i j n i jρijijnij

a = lim n n / N N n

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
mana diasumsikan ada di koran dan adalah fungsi dari .a=limnn/NNn

Rupanya hasil ini berlaku untuk setiap distribusi distribusi dengan jumlah momen terbatas yang cukup ( Edit: Lihat komentar @ cardinal di bawah). Jiang menunjukkan bahwa ini adalah distribusi nilai ekstrim Tipe I. Lokasi dan skalanya adalah

σ=2,μ=2log(1a28π).

Nilai yang diharapkan dari distribusi EV Tipe-I adalah , di mana menunjukkan konstanta Euler. Namun, seperti yang disebutkan dalam komentar, konvergensi dalam distribusi tidak, dengan sendirinya, menjamin konvergensi sarana dengan distribusi terbatas.γμ+σγγ

Jika kita dapat menunjukkan hasil seperti itu dalam kasus ini, maka nilai yang diharapkan asimptotik dariakan menjadinLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Perhatikan bahwa ini akan memberikan nilai yang diharapkan asimtotik dari korelasi kuadrat terbesar, sedangkan pertanyaannya menanyakan nilai yang diharapkan dari korelasi absolut terbesar. Jadi tidak 100% di sana, tapi tutup.

Saya melakukan beberapa simulasi singkat yang membuat saya berpikir 1) ada masalah dengan simulasi saya (kemungkinan), 2) ada masalah dengan transkripsi / aljabar saya (juga kemungkinan), atau 3) aproksimasi tidak valid untuk nilai dan saya gunakan. Mungkin OP dapat mempertimbangkan dengan beberapa hasil simulasi menggunakan perkiraan ini?nN

jmtroos
sumber
2
Dan tambahan: Saya sangat suka pertanyaan ini - saya bertanya-tanya tentang pertanyaan ini sebelumnya. Saya terkejut dengan koneksi ke distribusi Tipe-I - saya menemukan itu cukup keren. Saya hanya berharap saya mengerti matematika yang mengarah ke sana ...
jmtroos
1
(+1) Temuan bagus !! Saya pikir kita dapat mengasumsikan bahwa akar kuadrat positif dari ini setara dengan nilai yang diharapkan dari korelasi absolut terbesar? Dalam ekspresi Anda untuk ekspektasi, tidak bisakah kita mengambil semua bagian yang melibatkan untuk menghasilkan: ? Bagaimanapun, saya telah membandingkan ini dengan simulasi saya dan terlihat cukup dekat! Kode R saya benar-benar ceroboh, jadi saya akan mencoba merapikannya hari ini atau besok dan mempostingnya ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz
BTW, makalah ini tersedia langsung dari sini projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz
3
(+1) Ini adalah kertas yang sangat bagus, dan saya hanya membaca sekilas saja, tetapi kita perlu sedikit berhati-hati di sini. Beberapa komentar: ( 1 ) Hasilnya adalah untuk rezim , sehingga dimensi vektor harus tumbuh secara kasar sebanding dengan jumlah vektor yang dipertimbangkan untuk hasil ini untuk menahan. ( 2 ) Bahkan dalam kasus ini, hasilnya tidak berlaku untuk distribusi "apa pun"; memang, kondisi dalam makalah mengharuskan variabel acak menjadi "hampir terikat secara eksponensial" dalam arti bahwa kita pada dasarnya memerlukan momen ke-30 menjadi terbatas! (lanjutan)n/pγ(0,)
kardinal
3
(lanjt.) ( 3 ) Konvergensi dalam distribusi tidak menjamin konvergensi sarana dengan distribusi terbatas. Untuk itu, kami biasanya menggunakan sesuatu yang mirip dengan seragam dari set . Ini belum ditunjukkan di koran dan, karena berurusan dengan distribusi nilai ekstrem, mungkin tidak benar. Salah satu contoh favorit saya dari fenomena ini adalah urutan variabel acak yang menyatu dalam distribusi ke a , tetapi cara dapat dibuat untuk konvergen ke konstanta positif yang dipilih seseorang. χ 2 1{Ln}χ12
kardinal
2

Lebih jauh ke jawaban yang diberikan oleh @jmtroos, di bawah ini adalah rincian simulasi saya, dan perbandingan dengan derivasi @ jmtroos dari harapan dari Jiang (2004) , yaitu:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

Nilai-nilai harapan ini tampaknya di atas nilai-nilai simulasi untuk kecil dan di bawah untuk besar dan mereka tampak sedikit berbeda ketika meningkat. Namun, perbedaannya berkurang untuk meningkatkan , seperti yang kita harapkan sebagai makalah yang mengklaim bahwa distribusi asimptotik. Saya telah mencoba berbagai . Simulasi di bawah ini menggunakan . Saya cukup baru untuk R, jadi setiap saran atau saran untuk membuat kode saya lebih baik akan disambut dengan hangat.N N n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation
P Sellaz
sumber
Lihat komentar saya untuk jawaban lain, yang mungkin (atau mungkin tidak) membantu menjelaskan beberapa perbedaan yang Anda catat.
kardinal