Kami menarik sampel , masing-masing ukuran , secara independen dari distribusi Normal .n ( μ , σ 2 )
Dari sampel kami kemudian memilih 2 sampel yang memiliki korelasi Pearson tertinggi (absolut) satu sama lain.
Berapa nilai yang diharapkan dari korelasi ini?
Terima kasih [PS Ini bukan pekerjaan rumah]
Jawaban:
Saya menemukan artikel berikut, yang membahas masalah ini: Jiang, Tiefeng (2004). Distribusi Asimptotik dari Entri Terbesar dari Contoh Korelasi Sampel. The Annals of Applied Probability, 14 (2), 865-880
Jiang menunjukkan distribusi asimptotik statistik, di mana adalah korelasi antara vektor acak ke - dan ke- dari panjang (dengan ), adalahLn=max1≤i<j≤N|ρij| i j n i ≠ jρij i j n i≠j
a = lim n → ∞ n / N N n
Rupanya hasil ini berlaku untuk
setiap distribusidistribusi dengan jumlah momen terbatas yang cukup ( Edit: Lihat komentar @ cardinal di bawah). Jiang menunjukkan bahwa ini adalah distribusi nilai ekstrim Tipe I. Lokasi dan skalanya adalahNilai yang diharapkan dari distribusi EV Tipe-I adalah , di mana menunjukkan konstanta Euler. Namun, seperti yang disebutkan dalam komentar, konvergensi dalam distribusi tidak, dengan sendirinya, menjamin konvergensi sarana dengan distribusi terbatas.γμ+σγ γ
Jika kita dapat menunjukkan hasil seperti itu dalam kasus ini, maka nilai yang diharapkan asimptotik dariakan menjadinL2n−4logn+log(log(n))
Perhatikan bahwa ini akan memberikan nilai yang diharapkan asimtotik dari korelasi kuadrat terbesar, sedangkan pertanyaannya menanyakan nilai yang diharapkan dari korelasi absolut terbesar. Jadi tidak 100% di sana, tapi tutup.
Saya melakukan beberapa simulasi singkat yang membuat saya berpikir 1) ada masalah dengan simulasi saya (kemungkinan), 2) ada masalah dengan transkripsi / aljabar saya (juga kemungkinan), atau 3) aproksimasi tidak valid untuk nilai dan saya gunakan. Mungkin OP dapat mempertimbangkan dengan beberapa hasil simulasi menggunakan perkiraan ini?n N
sumber
Lebih jauh ke jawaban yang diberikan oleh @jmtroos, di bawah ini adalah rincian simulasi saya, dan perbandingan dengan derivasi @ jmtroos dari harapan dari Jiang (2004) , yaitu:
Nilai-nilai harapan ini tampaknya di atas nilai-nilai simulasi untuk kecil dan di bawah untuk besar dan mereka tampak sedikit berbeda ketika meningkat. Namun, perbedaannya berkurang untuk meningkatkan , seperti yang kita harapkan sebagai makalah yang mengklaim bahwa distribusi asimptotik. Saya telah mencoba berbagai . Simulasi di bawah ini menggunakan . Saya cukup baru untuk R, jadi setiap saran atau saran untuk membuat kode saya lebih baik akan disambut dengan hangat.N N n n ∈ [ 100 , 500 ] n = 200N N N n n∈[100,500] n=200
sumber