Independensi Mean dan Varian Distribusi Seragam Terpisah

Dalam komentar di bawah tulisan saya , Glen_b dan saya mendiskusikan bagaimana distribusi diskrit harus memiliki mean dan varian yang berbeda.

Untuk distribusi normal masuk akal. Jika saya memberi tahu Anda $\bar{x}$ , kamu belum tahu apa $s^2$ adalah, dan jika saya memberi tahu Anda , Anda tidak tahu apa itu. (Diedit untuk mengatasi statistik sampel, bukan parameter populasi.) $s^2$ $\bar{x}$

Tetapi kemudian untuk distribusi seragam diskrit, bukankah logika yang sama berlaku? Jika saya memperkirakan pusat titik akhir, saya tidak tahu skala, dan jika saya memperkirakan skala, saya tidak tahu pusat.

Apa yang salah dengan pemikiran saya?

EDIT

Saya melakukan simulasi jbowman. Kemudian saya memukulnya dengan probabilitas integral transformasi (saya pikir) untuk memeriksa hubungan tanpa pengaruh dari distribusi marjinal (isolasi kopula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

Dalam gambar kecil yang muncul di RStudio, plot kedua sepertinya memiliki cakupan yang seragam di atas unit square, jadi independensi. Setelah memperbesar, ada pita vertikal yang berbeda. Saya pikir ini ada hubungannya dengan diskresi dan bahwa saya tidak boleh membacanya. Saya kemudian mencobanya untuk distribusi seragam berkelanjutan pada . $(0,10)$

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

Yang ini benar-benar terlihat seperti memiliki titik-titik yang terdistribusi secara seragam di seluruh unit square, jadi saya tetap skeptis bahwa dan bersifat independen. $\bar{x}$ $s^2$

distributions variance mean independence moments Dave
sumber

Itu pendekatan yang menarik yang telah Anda lakukan di sana, saya harus memikirkannya.

jbowman

Ketergantungan (tentu) semakin lemah pada ukuran sampel yang lebih besar sehingga sulit untuk dilihat. Coba ukuran sampel yang lebih kecil, seperti n = 5,6,7 dan Anda akan melihatnya dengan lebih mudah.

Glen_b -Reinstate Monica

@ Glen_b Anda benar. Ada hubungan yang lebih jelas ketika saya memperkecil ukuran sampel. Bahkan dalam gambar yang saya posting, tampaknya ada beberapa pengelompokan di sudut kanan dan kiri bawah, yang hadir dalam plot untuk ukuran sampel yang lebih kecil. Dua tindak lanjut. 1) Apakah ketergantungan tentu semakin lemah karena parameter populasi dapat bervariasi secara independen satu sama lain? 2) Tampaknya salah bahwa statistik akan memiliki jenis ketergantungan, tetapi mereka jelas melakukannya. Apa yang menyebabkan ini?

Dave

Salah satu cara untuk mendapatkan wawasan adalah dengan memeriksa fitur-fitur khusus dari sampel yang masuk ke 'tanduk-tanduk' itu di bagian atas plot Bruce. Secara khusus perhatikan bahwa pada n = 5, Anda mendapatkan varians sebesar mungkin dengan semua titik dekat. ke 0 atau 1, tetapi karena ada 5 pengamatan, Anda memerlukan 3 di satu ujung dan 2 di yang lain, sehingga rerata harus dekat dengan 0,4 atau 0,6 tetapi tidak dekat 0,5 (karena menempatkan satu titik di tengah akan menjatuhkan varians a bit) .Jika Anda memiliki distribusi berekor berat, baik mean dan varians akan paling dipengaruhi oleh pengamatan paling ekstrem ...

ctd

ctd ... dan dalam situasi itu Anda mendapatkan korelasi yang kuat antara

| \bar{x} - μ |

$|\bar{x}-\mu|$ dan

s

$s$ (memberikan dua "tanduk" besar di kedua sisi pusat populasi pada plot sd vs mean) - dengan seragam korelasi ini agak negatif. ... Dengan sampel besar Anda akan menuju perilaku asimptotik

(\bar{X}, s_{X}^{2})

$(\bar{X},s^2_X)$ yang akhirnya menjadi normal bersama.

Glen_b -Reinstate Monica

Jawaban:

jbowman's Answer (+1) menceritakan banyak hal. Ini sedikit lagi.

(a) Untuk data dari distribusi seragam yang berkelanjutan , mean sampel dan SD tidak berkorelasi, tetapi tidak independen. 'Garis besar' plot menekankan pada ketergantungan. Di antara distribusi berkelanjutan, independensi hanya berlaku untuk normal.

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

(B) Seragam diskrit. Discreteness memungkinkan untuk menemukan nilai $a$ dari mean dan nilai $s$ SD sedemikian rupa sehingga $P(\bar X = a) > 0,\, P(S = s) > 0,$ tapi $P(\bar X = a, X = s) = 0.$

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(d) Selanjutnya ke (a), menggunakan distribusi $\mathsf{Beta}(.1,.1),$ dari pada $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$ menekankan batas-batas nilai yang mungkin dari mean sampel dan SD. Kami 'memencet' hypercube 5 dimensi ke 2-ruang. Gambar beberapa hyper-edge jelas. [Ref: Gambar di bawah ini mirip dengan Gambar 4.6 di Suess & Trumbo (2010), Pengantar simulasi probabilitas dan pengambilan sampel Gibbs dengan R, Springer.]

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Tambahan per Komentar.

BruceET
sumber

Gunakan ecdf pada yang terakhir Anda. Plotnya liar! Lagi pula, jika variabel seragam memiliki ketergantungan antara

\bar{x}

$\bar{x}$ dan

s^{2}

$s^2$ , bagaimana kita mendapatkan beberapa informasi tentang satu dengan mengetahui yang lain, mengingat bahwa kita dapat meregangkan jangkauan atau menggeser pusat mau tak mau dan tidak mempengaruhi nilai lainnya? Jika kita mendapatkannya

\bar{x} = 0

$\bar{x}=0$ , kita seharusnya tidak tahu jika

s^{2} = 1

$s^2 = 1$ atau

s^{2} = 100

$s^2=100$ , mirip dengan bagaimana kita dapat meregangkan distribusi normal tanpa mempengaruhi rerata.

Dave

Kriteria kemerdekaan menuntut. Kurangnya kemandirian antara dua RV tidak menjamin mudahnya mendapatkan info tentang satu, mengetahui nilai yang lain. // Dalam (d), tidak yakin apa yang akan diungkapkan oleh ECDF A atau S. // Scatterplot di (d) menunjukkan 6 'poin', gambar di bawah transformasi 32 simpul 5-d hypercube dengan multiplisitas 1, 5, 10, 10, 5, 1 (dari kiri ke kanan). Multiplisitas menjelaskan mengapa poin 'dua teratas' paling berbeda.

BruceET

Maksud saya tidak mudah untuk mendapatkan info tentang satu jika Anda tahu yang lain, tetapi jika Anda memiliki independensi, yang dapat Anda lakukan hanyalah distribusi marginal. Pertimbangkan dua variabel normal standar

X

$X$ dan

Y

$Y$ dengan

ρ = 0.9

$\rho=0.9$ . Jika kamu tahu itu

x = 1

$x=1$ , kamu tidak tahu apa

y

$y$ sama dengan, tetapi Anda tahu bahwa nilai sekitar

1

$1$ lebih mungkin daripada nilai sekitar

- 1

$-1$ . Jika

ρ = 0

$\rho=0$ , lalu nilai sekitar

1

$1$ hanya sebagai nilai sekitar

- 1

$-1$ .

Dave

Tapi itu untuk hubungan yang hampir linier antara dua standar normal. Mean dan SD sampel tidak mudah.

BruceET

@ Pernahkah Anda memiliki informasi tentang satu ketika Anda tahu yang lain. Misalnya, jika varians sampel benar-benar besar, Anda tahu mean sampel tidak benar-benar mendekati 0,5 (lihat celah di tengah atas plot pertama, misalnya)

Glen_b -Reinstate Monica

Bukan berarti mean dan varians tergantung dalam kasus distribusi diskrit, itu adalah bahwa mean sampel dan varians tergantung diberikan parameter distribusi. Mean dan varians itu sendiri adalah fungsi tetap dari parameter distribusi, dan konsep seperti "independensi" tidak berlaku untuk mereka. Akibatnya, Anda mengajukan pertanyaan hipotetis yang salah tentang diri Anda.

Dalam kasus distribusi seragam diskrit, merencanakan hasil 20.000 $(\bar{x}, s^2)$ pasangan dihitung dari sampel 100 seragam $(1, 2, \dots, 10)$ hasil variasi dalam:

yang menunjukkan dengan jelas bahwa mereka tidak independen; semakin tinggi nilai $s^2$ terletak secara tidak proporsional menuju pusat kisaran $\bar{x}$ . (Namun, mereka tidak berkorelasi; argumen simetri sederhana harus meyakinkan kita tentang hal itu.)

Tentu saja, sebuah contoh tidak dapat membuktikan dugaan Glen di postingan yang Anda tautkan dengan tidak ada distribusi diskrit dengan mean dan varians sampel independen!

Jbowman
sumber

Itu bagus menangkap tentang statistik versus parameter. Saya telah mengedit yang cukup luas.

Dave