Mengapa Central Limit Theorem rusak dalam simulasi saya?

21

Katakanlah saya memiliki nomor berikut:

4,3,5,6,5,3,4,2,5,4,3,6,5

Saya sampel beberapa dari mereka, katakanlah, 5 dari mereka, dan menghitung jumlah 5 sampel. Kemudian saya ulangi berulang-ulang untuk mendapatkan banyak jumlah, dan saya plot nilai-nilai penjumlahan dalam histogram, yang akan menjadi Gaussian karena Teorema Limit Pusat.

Tetapi ketika mereka mengikuti angka, saya hanya mengganti 4 dengan angka besar:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Jumlah sampel dari 5 sampel dari ini tidak pernah menjadi Gaussian dalam histogram, tetapi lebih seperti split dan menjadi dua Gaussians. Mengapa demikian?

central-limit-theorem JimSD
sumber

1

Itu tidak akan melakukan itu jika Anda meningkatkannya melampaui n = 30 atau lebih ... hanya kecurigaan saya dan versi yang lebih ringkas / ulangan dari jawaban yang diterima di bawah ini.

oemb1905

@ JimDi CLT adalah hasil asimptotik (yaitu tentang distribusi rata-rata sampel standar atau jumlah dalam batas sebagai ukuran sampel hingga tak terbatas). bukan . Hal yang Anda lihat (pendekatan terhadap normalitas dalam sampel hingga) tidak sepenuhnya merupakan hasil dari CLT, tetapi hasil terkait.

n = 5

$n=5$

n \to \infty

$n\to\infty$

Glen_b -Reinstate Monica

3

@ oemb1905 n = 30 tidak cukup untuk jenis kemiringan yang disarankan OP. Bergantung pada seberapa jarang kontaminasi dengan nilai seperti mungkin diperlukan n = 60 atau n = 100 atau bahkan lebih sebelum normal terlihat seperti perkiraan yang masuk akal. Jika kontaminasi sekitar 7% (seperti dalam pertanyaan) n = 120 masih agak condong

10^{7}

$10^7$

Glen_b -Reinstate Monica

2

Kemungkinan duplikat Mengapa menambah ukuran sampel membalik koin tidak meningkatkan perkiraan kurva normal?

Sextus Empiricus

Pikirkan bahwa nilai dalam interval seperti (1.100.000, 1.900.000) tidak akan pernah tercapai. Tetapi jika Anda menghasilkan jumlah yang layak, itu akan berhasil!

David

18

Mari kita ingat, tepatnya, apa yang dikatakan teorema limit pusat.

Jika adalah variabel acak independen dan terdistribusi identik dengan (dibagi) berarti dan standar deviasi , maka menyatu dalam distribusi ke distribusi normal standar (*). $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ $N(0, 1)$

Ini sering digunakan dalam bentuk "informal":

Jika adalah variabel acak independen dan terdistribusi secara identik dengan mean ( dan deviasi standar , maka menyatu "dalam distribusi" ke distribusi normal standar . $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $X_1 + X_2 + \cdots + X_k$ $N(k \mu, \sqrt{k} \sigma)$

Tidak ada cara yang baik untuk membuat bentuk CLT yang tepat secara matematis, karena distribusi perubahan "batas", tetapi berguna dalam praktik.

Ketika kita memiliki daftar angka statis seperti

4,3,5,6,5,3,10000000,2,5,4,3,6,5

dan kami mengambil sampel dengan mengambil nomor secara acak dari daftar ini, untuk menerapkan teorema batas pusat, kami perlu memastikan bahwa skema pengambilan sampel kami memenuhi kedua kondisi independensi ini dan didistribusikan secara identik.

Terdistribusi secara identik bukan masalah: setiap nomor dalam daftar memiliki kemungkinan yang sama untuk dipilih.
Independen lebih halus, dan tergantung pada skema pengambilan sampel kami. Jika kita mengambil sampel tanpa penggantian , maka kita melanggar independensi. Hanya ketika kami sampel dengan penggantian teorema batas pusat berlaku.

Jadi, jika kami menggunakan sampling pengganti dalam skema Anda, maka kami harus dapat menerapkan teorema batas pusat. Pada saat yang sama, Anda benar, jika sampel kami berukuran 5, maka kami akan melihat perilaku yang sangat berbeda tergantung pada apakah jumlah yang sangat besar dipilih, atau tidak dipilih dalam sampel kami.

Jadi, apa masalahnya? Nah, laju konvergensi ke distribusi normal sangat tergantung pada bentuk populasi tempat kami mengambil sampel, khususnya, jika populasi kami sangat condong, kami memperkirakan perlu waktu lama untuk menyatu dengan normal. Ini adalah kasus dalam contoh kita, jadi kita tidak boleh berharap bahwa sampel ukuran 5 cukup untuk menunjukkan struktur normal.

Di atas, saya mengulangi percobaan Anda (dengan sampling pengganti) untuk sampel berukuran 5, 100, dan 1000. Anda dapat melihat bahwa struktur normal muncul untuk sampel yang sangat besar.

(*) Perhatikan ada beberapa kondisi teknis yang diperlukan di sini, seperti mean dan varian terbatas. Mereka dengan mudah diverifikasi menjadi benar dalam sampel kami dari contoh daftar.

Matthew Drury
sumber

Terima kasih atas jawaban yang sangat cepat dan sempurna. Ide CLT, penggantian, kebutuhan sampel lebih banyak ketika distribusi data miring, ... Sekarang sudah sangat jelas. Maksud asli pertanyaan saya adalah, seperti yang Anda sebutkan, kasus ketika satu jumlah besar dimasukkan tanpa penggantian dan jumlah sampel ditetapkan. Itu berperilaku sangat berbeda, dan oleh karena itu kita perlu mempertimbangkan CLT "kondisional" untuk kasus sejumlah besar sampel dan kasus tidak sampel. Saya ingin tahu apakah ada penelitian atau pekerjaan sebelumnya untuk itu .. Tapi terima kasih.

JimSD

tidak tahu apakah dapat diterapkan di sini, tetapi teorema konvergensi CLT diatur oleh skewness en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem

seanv507

Saya agak bingung dengan definisi dari MatthewTrury tentang CLT. Saya berpikir bahwa menyatu dengan konstanta oleh LLN, bukan distribusi normal.

\frac{\sum X_{k}}{k}

$\frac{\sum X_k}{k}$

JTH

1

@ seanv507 saat ketiga mutlak, bukan kemiringan; keduanya terkait tetapi perhatikan bahwa untuk distribusi simetris dengan momen ketiga hingga Berry-Esseen terikat padabukan 0 karena bukan skewness

| F_{n} (x) - Φ (x) |

$|F_n(x)-\Phi(x)|$

ρ / σ^{3}

$\rho/\sigma^3$

Glen_b -Reinstate Monica

1

@ Glen_b Yah, saya agak informal (yang mungkin seharusnya tidak saya lakukan), tapi saya bisa memperbaikinya sore ini karena itu menyebabkan sedikit kebingungan.

Matthew Drury

12

Secara umum, ukuran masing-masing sampel harus lebih dari untuk perkiraan CLT menjadi baik. Aturan praktis adalah sampel berukuran atau lebih. Tetapi, dengan populasi dari contoh pertama Anda, adalah OK. $5$ $30$ $5$

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Dalam contoh kedua Anda, karena bentuk distribusi populasi (untuk satu hal, itu terlalu miring; baca komentar oleh pria dan Glen_b di bawah), bahkan sampel ukuran tidak akan memberi Anda perkiraan yang baik untuk distribusi mean sampel menggunakan CLT. $30$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Tetapi, dengan populasi kedua ini, sampel, katakanlah, ukuran baik-baik saja. $100$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Zen
sumber

3

Bukan varians yang menjadi masalah. Salah satu cara untuk mendapatkan kontrol yang ketat adalah dengan menggunakan rasio momen pusat ketiga terhadap standar deviasi, seperti dalam teorema Berry-Esseen.

pria

Sempurna. Ditambahkan. Tks.

Zen

1

Terima kasih atas jawaban cepat, visual, dan sempurna dengan kode. Saya sangat terkejut betapa cepatnya itu! Saya tidak mengetahui jumlah sampel yang tepat. Saya sedang memikirkan kasus di mana jumlah sampel ditetapkan.

JimSD

@ guy, Terima kasih untuk itu. Saya tidak tahu ide "rasio momen pusat ketiga dengan standar deviasi yang dikelompokkan dalam teorema Berry-Esseen" . Saya hanya ingin menangani kasus di mana ada satu jumlah besar seperti pencilan yang termasuk dalam distribusi. Dan distribusi semacam itu bisa menjadi referensi seperti yang Anda sebutkan, saya kira. Jika jika Anda mengetahui pekerjaan sebelumnya yang berhubungan dengan distribusi semacam itu, beri tahu saya, terima kasih.

JimSD

2

@ beli teorema Berry Esseen adalah tentang momen absolut ketiga tentang mean bukan hanya momen ketiga tentang mean . Ini membuatnya responsif terhadap tidak hanya kemiringan tetapi juga ekor yang berat.

ρ = E [| X - μ |^{3}]

$\rho=E[|X-\mu|^3]$

μ_{3} = E [(X - μ)^{3}]

$\mu_3=E[(X-\mu)^3]$

Glen_b -Reinstate Monica

7

Saya hanya ingin menjelaskan, menggunakan fungsi penghasil kumulans kompleks , mengapa semua orang terus menyalahkan ini pada kemiringan.

Mari kita tulis variabel acak yang Anda sampel sebagai , di mana adalah mean dan deviasi standar sehingga memiliki mean dan varians . Fungsi penghasil kumulatif adalah . Di sini menunjukkan kemiringan ; kita dapat menuliskannya dalam bentuk condong dari variabel asli , yaitu. . $\mu+\sigma Z$ $\mu$ $\sigma$ $Z$ $0$ $1$ $Z$ $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ $\gamma_1$ $Z$ $\kappa_3$ $\mu+\sigma Z$ $\gamma_1=\sigma^{-3}\kappa_3$

Jika kita membagi jumlah sampel distribusi dengan , hasilnya memiliki cgfAgar perkiraan Normal valid pada cukup besar agar grafik terlihat benar, kita perlu cukup besar . Perhitungan ini memotivasi . Dua sampel yang Anda anggap memiliki nilai sangat berbeda . $n$ $Z$ $\sqrt{n}$

n (- \frac{1}{2} {(\frac{t}{\sqrt{n}})}^{2} - \frac{i γ_{1}}{6} {(\frac{t}{\sqrt{n}})}^{3}) + o (t^{3}) = - \frac{1}{2} t^{2} - \frac{i γ_{1}}{6 \sqrt{n}} t^{3} + o (t^{3}) .

$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$

t

$t$

n

$n$

n \propto γ_{1}^{2}

$n\propto\gamma_1^2$

γ_{1}

$\gamma_1$

J G
sumber

-1

Jawaban singkatnya adalah, Anda tidak memiliki sampel yang cukup besar untuk menerapkan teorema limit pusat.

feynman
sumber

1

Bahwa ini tidak bisa menjadi penjelasan yang valid terbukti dari pengamatan bahwa CLT memberikan perkiraan yang baik untuk set data pertama dalam pertanyaan, yang sama kecilnya.

whuber

@whuber: Saya pikir Anda mengatakan bahwa distribusi normal memberikan perkiraan yang cukup baik untuk sampel lima dari set pertama. Karena hanya ada sejumlah nilai terbatas untuk jumlah (13 nilai yang mungkin tanpa penggantian dan 21 nilai yang mungkin dengan penggantian), perkiraan tidak menjadi jauh lebih baik dengan sejumlah besar sampel lima, dan perkiraan awal lebih disebabkan oleh pola awal ...

Henry

@whuber Karena distribusi set pertama tampak condong ke kiri, saya akan berharap jumlah lima juga condong ke kiri, dengan cara yang tidak terlalu ekstrim daripada yang saya harapkan jumlah lima dari set kedua menjadi condong ke kanan. Untuk mengurangi kemiringan, saya akan berpikir bahwa Anda akan membutuhkan ukuran sampel yang lebih besar

Henry

1

@Henry Terima kasih atas komentar Anda. Saya tidak berkomentar tentang keadaan khusus ini, tetapi hanya tentang logika jawaban ini, dengan harapan dapat dijelaskan lebih lanjut.

whuber

Mengapa Central Limit Theorem rusak dalam simulasi saya?

Jawaban: