Saya menghadapi distribusi terbatas dengan nol kovarians antara dua variabel tetapi korelasinya adalah . Apakah ada distribusi seperti itu? Bagaimana bisa dijelaskan?
Anda benar, mungkin saya perlu memberikan lebih banyak detail. OK, X dan Y adalah distribusi normal bivariat dengan varians dan rata-rata yang berbeda (bebas n) tetapi corr = 1- (1 / n), sekarang selidiki distribusi terbatas Yn | Xn = x.
Jawaban:
Setelah klarifikasi oleh OP, tampak bahwa a) kami berasumsi bahwa dua variabel mengikuti bersama normal bivariat dan b) minat kami adalah pada distribusi bersyarat, yang kemudian
Kemudian kita melihat bahwa sebagai , kita memiliki , dan varians dari distribusi kondisional menjadi nol. Secara intuitif, jika korelasi mengarah ke persatuan, "mengetahui " sudah cukup untuk "mengenal " juga.n→∞ ρn→1 x y
Tapi di mana saja di atas kita tidak mendapatkan bahwa adalah nol. Bahkan pada batas kovarians akan tetap sama dengan .Cov(Yn,Xn) Cov(Yn,Xn)→σyσx
Perhatikan bahwa kovarians kondisional (dan kemudian juga korelasi kondisional) selalu nol, karena,
Ini terjadi karena dengan memeriksa kita telah mengubah salah satu variabel acak menjadi konstanta, dan konstanta tidak co-variatif dengan apa pun.Xn=x
sumber
Karena kovarians tergantung pada skalaX dan Y dan korelasinya tidak (kembali ke
[−1,−1] ) itu mungkin. Misalnya, jika varians berkurang ke nol:
JikaX=Y dan σ2x adalah varian dari X , kemudian limσ2x→0cov(X,Y)=0 dan .limσ2x→0cor(X,Y)=1
Catatan 1: ketika korelasinya sangat tidak ditentukan karena penyebutnya sama dengan 0.σ2x=0
sumber
Sejauh yang saya bisa lihat (mungkin di luar beberapa keadaan khusus, tetapi Anda tidak menyebutkan), itu tidak mungkin.
Korelasi adalah kovarians dibagi dengan produk dari dua standar deviasi, jadi jika kovariansnya nol, korelasinya nol (ketika kedua standar deviasi tidak nol) atau tidak terdefinisi (ketika setidaknya satu standar deviasi adalah 0). Seharusnya tidak 1 ketika kovarians adalah 0.
Saya berharap Anda telah membuat beberapa kesalahan dalam analisis Anda atau deskripsi Anda tidak cukup jelas untuk membedakan situasi dengan benar.
sumber
Anda mungkin mengalami kesulitan karena Anda memvisualisasikan data sebagai Gaussian.
Ada kemungkinan bahwa semua data mewakili titik yang sama (meskipun itu akan berlebihan) dan bahwa Anda memiliki dua variabel dengan nama yang berbeda (alias satu sama lain) yang terdiri dari data. Ini akan mengarah pada nol kovarians, dan korelasi 1 secara fundamental, kovarians mewakili bagaimana penyebaran data melintasi ruang fitur, sementara korelasi mewakili seberapa banyak satu variabel bergantung pada yang lain, atau tingkat pengaruh yang mereka miliki satu sama lain. Jika data tidak tersebar sama sekali, maka kovarian harus nol.
CATATAN Namun hal terbaik yang dapat Anda lakukan dengan dataset tersebut hanyalah memprediksi semua poin memiliki output yang sama, yang kemungkinan besar akan memberikan bias tinggi
sumber