Katakanlah saya memiliki nomor berikut:
4,3,5,6,5,3,4,2,5,4,3,6,5
Saya sampel beberapa dari mereka, katakanlah, 5 dari mereka, dan menghitung jumlah 5 sampel. Kemudian saya ulangi berulang-ulang untuk mendapatkan banyak jumlah, dan saya plot nilai-nilai penjumlahan dalam histogram, yang akan menjadi Gaussian karena Teorema Limit Pusat.
Tetapi ketika mereka mengikuti angka, saya hanya mengganti 4 dengan angka besar:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
Jumlah sampel dari 5 sampel dari ini tidak pernah menjadi Gaussian dalam histogram, tetapi lebih seperti split dan menjadi dua Gaussians. Mengapa demikian?
central-limit-theorem
JimSD
sumber
sumber
Jawaban:
Mari kita ingat, tepatnya, apa yang dikatakan teorema limit pusat.
Ini sering digunakan dalam bentuk "informal":
Tidak ada cara yang baik untuk membuat bentuk CLT yang tepat secara matematis, karena distribusi perubahan "batas", tetapi berguna dalam praktik.
Ketika kita memiliki daftar angka statis seperti
dan kami mengambil sampel dengan mengambil nomor secara acak dari daftar ini, untuk menerapkan teorema batas pusat, kami perlu memastikan bahwa skema pengambilan sampel kami memenuhi kedua kondisi independensi ini dan didistribusikan secara identik.
Jadi, jika kami menggunakan sampling pengganti dalam skema Anda, maka kami harus dapat menerapkan teorema batas pusat. Pada saat yang sama, Anda benar, jika sampel kami berukuran 5, maka kami akan melihat perilaku yang sangat berbeda tergantung pada apakah jumlah yang sangat besar dipilih, atau tidak dipilih dalam sampel kami.
Jadi, apa masalahnya? Nah, laju konvergensi ke distribusi normal sangat tergantung pada bentuk populasi tempat kami mengambil sampel, khususnya, jika populasi kami sangat condong, kami memperkirakan perlu waktu lama untuk menyatu dengan normal. Ini adalah kasus dalam contoh kita, jadi kita tidak boleh berharap bahwa sampel ukuran 5 cukup untuk menunjukkan struktur normal.
Di atas, saya mengulangi percobaan Anda (dengan sampling pengganti) untuk sampel berukuran 5, 100, dan 1000. Anda dapat melihat bahwa struktur normal muncul untuk sampel yang sangat besar.
(*) Perhatikan ada beberapa kondisi teknis yang diperlukan di sini, seperti mean dan varian terbatas. Mereka dengan mudah diverifikasi menjadi benar dalam sampel kami dari contoh daftar.
sumber
Secara umum, ukuran masing-masing sampel harus lebih dari untuk perkiraan CLT menjadi baik. Aturan praktis adalah sampel berukuran atau lebih. Tetapi, dengan populasi dari contoh pertama Anda, adalah OK.5 30 5
Dalam contoh kedua Anda, karena bentuk distribusi populasi (untuk satu hal, itu terlalu miring; baca komentar oleh pria dan Glen_b di bawah), bahkan sampel ukuran tidak akan memberi Anda perkiraan yang baik untuk distribusi mean sampel menggunakan CLT.30
Tetapi, dengan populasi kedua ini, sampel, katakanlah, ukuran baik-baik saja.100
sumber
Saya hanya ingin menjelaskan, menggunakan fungsi penghasil kumulans kompleks , mengapa semua orang terus menyalahkan ini pada kemiringan.
Mari kita tulis variabel acak yang Anda sampel sebagai , di mana adalah mean dan deviasi standar sehingga memiliki mean dan varians . Fungsi penghasil kumulatif adalah . Di sini menunjukkan kemiringan ; kita dapat menuliskannya dalam bentuk condong dari variabel asli , yaitu. .μ+σZ μ σ Z 0 1 Z −12t2−iγ16t3+o(t3) γ1 Z κ3 μ+σZ γ1=σ−3κ3
Jika kita membagi jumlah sampel distribusi dengan , hasilnya memiliki cgfAgar perkiraan Normal valid pada cukup besar agar grafik terlihat benar, kita perlu cukup besar . Perhitungan ini memotivasi . Dua sampel yang Anda anggap memiliki nilai sangat berbeda .n Z n−−√ n(−12(tn−−√)2−iγ16(tn−−√)3)+o(t3)=−12t2−iγ16n−−√t3+o(t3). t n n∝γ21 γ1
sumber
Jawaban singkatnya adalah, Anda tidak memiliki sampel yang cukup besar untuk menerapkan teorema limit pusat.
sumber