Mengapa teorema limit pusat bekerja dengan satu sampel?

12

Saya selalu diajari bahwa CLT bekerja ketika Anda mengulangi pengambilan sampel, dengan masing-masing sampel cukup besar. Sebagai contoh, bayangkan saya memiliki negara dengan 1.000.000 penduduk. Pemahaman saya tentang CLT adalah bahwa bahkan jika distribusi ketinggian mereka tidak normal, jika saya mengambil 1000 sampel dari 50 orang (yaitu melakukan 1.000 survei dari 50 warga masing-masing), kemudian menghitung tinggi rata-rata mereka untuk setiap sampel, distribusi sampel ini berarti akan menjadi normal.

Namun, saya belum pernah melihat kasus dunia nyata di mana para peneliti mengambil sampel berulang. Sebagai gantinya, mereka mengambil satu sampel besar (yaitu mensurvei 50.000 warga tentang tinggi badan mereka) dan bekerja dari situ.

Mengapa buku statistik mengajarkan pengambilan sampel berulang dan di dunia nyata peneliti hanya melakukan sampel tunggal?

Sunting: Kasus dunia nyata yang saya pikirkan adalah melakukan statistik pada set data 50.000 pengguna twitter. Dataset itu jelas bukan sampel yang diulang, itu hanya satu sampel besar 50.000.

Anton
sumber
Mengambil sampel 1000 dari 50.000 hampir sama dengan mengambil 1000 sampel tunggal secara independen dari 50.000. Semakin kecil sampel (atau semakin besar alam semesta), semakin banyak mereka akan terlihat sama.
Thomas Ahle

Jawaban:

14

The CLT (setidaknya dalam beberapa berbagai bentuknya) memberitahu kita bahwa pada batas sebagai n distribusi sampel standar tunggal mean ( X¯μσ/n

n=50n=50,000

X¯

Sebenarnya ini tidak menunjukkan CLT, itu lebih dekat untuk menunjukkan teorema Berry-Esseen, karena itu menunjukkan sesuatu tentang tingkat di mana pendekatan normalitas datang - tetapi yang pada gilirannya akan membawa kita ke CLT, jadi itu berfungsi cukup baik sebagai motivasi (dan pada kenyataannya, sering kali sesuatu seperti Berry-Esseen mendekati apa yang sebenarnya ingin digunakan orang dalam sampel terbatas, sehingga motivasi dalam beberapa hal lebih berguna dalam praktik daripada teorema batas pusat itu sendiri) .

distribusi sampel ini berarti normal.

Yah, tidak, mereka akan non-normal tetapi dalam praktiknya akan sangat dekat dengan normal (ketinggian agak miring tetapi tidak terlalu miring).

n=50

Kasus dunia nyata yang saya pikirkan adalah melakukan statistik pada set data 50.000 pengguna twitter. Dataset itu jelas bukan sampel yang diulang, itu hanya satu sampel besar 50.000.

Untuk banyak distribusi, rata-rata sampel 50.000 item akan sangat dekat dengan distribusi normal - tetapi tidak dijamin, bahkan pada n = 50.000 Anda akan memiliki sangat dekat dengan distribusi normal (jika distribusi masing-masing item cukup memadai condong, misalnya, maka distribusi mean sampel mungkin masih cukup condong untuk membuat perkiraan normal tidak bisa dipertahankan).

( Teorema Berry-Esseen akan menuntun kita untuk mengantisipasi bahwa masalah itu mungkin terjadi - dan terbukti, memang terjadi. Mudah untuk memberikan contoh penerapan CLT tetapi n = 50.000 bukan sampel yang cukup besar untuk sampel standar berarti mendekati normal.)

Glen_b -Reinstate Monica
sumber
Untuk memeriksa apakah 50.000 cukup besar, seseorang dapat melakukan simulasi di R misalnya, benar? Saya akan menggunakan mean dan standar deviasi sampel, tetapi bagaimana saya memastikan untuk mensimulasikan dari distribusi sampel yang sama?
Amonet
Sebenarnya, Anda perlu mensimulasikan dari distribusi populasi. Anda dapat memperlakukan distribusi sampel Anda sebagai perkiraan distribusi populasi (ini mirip dengan bootstrap) - tetapi ini tidak akan memadai untuk tujuan seperti itu. Sebagai contoh, pertimbangkan untuk mengambil sampel dari distribusi Cauchy, dan kemudian melakukan resampling dari itu dengan penggantian. (untuk sampel yang semakin besar), sampai distribusi sarana resampled muncul "cukup normal". Anda akan selalu menyimpulkan bahwa beberapa ukuran sampel terbatas sudah cukup, tetapi sebenarnya tidak akan pernah.
Glen_b -Reinstate Monica