Beberapa buku menyatakan ukuran sampel ukuran 30 atau lebih tinggi diperlukan untuk teorema batas pusat untuk memberikan perkiraan yang baik untuk .
Saya tahu ini tidak cukup untuk semua distribusi.
Saya ingin melihat beberapa contoh distribusi di mana bahkan dengan ukuran sampel yang besar (mungkin 100, atau 1000, atau lebih tinggi), distribusi rata-rata sampel masih cukup miring.
Saya tahu saya telah melihat contoh seperti itu sebelumnya, tetapi saya tidak ingat di mana dan saya tidak dapat menemukannya.
Jawaban:
Aturan umum ini hampir tidak berguna sama sekali. Ada distribusi non-normal yang n = 2 akan melakukan distribusi baik-baik saja dan non-normal yang jauh lebih besar tidak mencukupi - jadi tanpa batasan eksplisit pada keadaan, aturannya menyesatkan. Bagaimanapun, bahkan jika itu benar, yang diperlukan n akan bervariasi tergantung pada apa yang Anda lakukan. Seringkali Anda mendapatkan perkiraan yang baik di dekat pusat distribusi di n kecil , tetapi perlu n lebih besar untuk mendapatkan perkiraan yang layak di bagian ekor.n n n n
Sunting: Lihat jawaban atas pertanyaan ini untuk berbagai pendapat tetapi tampaknya dengan suara bulat tentang masalah itu, dan beberapa tautan yang baik. Saya tidak akan memaksakan intinya, karena Anda sudah jelas memahaminya.
Contoh relatif mudah dibangun; salah satu cara mudah adalah menemukan distribusi yang dapat dibagi tanpa batas yang tidak normal dan membaginya. Jika Anda memiliki satu yang akan mendekati normal ketika Anda rata-rata atau jumlah itu, mulai pada batas 'mendekati normal' dan membaginya sebanyak yang Anda suka. Jadi misalnya:
Rata-rata 1000 dari mereka akan memiliki bentuk pdf pertama (tetapi tidak skalanya).
@ whuber's point tentang distribusi yang terkontaminasi adalah yang sangat bagus; mungkin membayar untuk mencoba beberapa simulasi dengan kasus itu dan melihat bagaimana hal-hal berperilaku di banyak sampel tersebut.
sumber
sumber
Anda mungkin menemukan makalah ini bermanfaat (atau paling tidak menarik):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Para peneliti di UMass sebenarnya melakukan penelitian yang mirip dengan apa yang Anda tanyakan. Pada ukuran sampel apa data terdistribusi tertentu mengikuti distribusi normal karena CLT? Rupanya banyak data yang dikumpulkan untuk eksperimen psikologi tidak berada di dekat yang terdistribusi normal, sehingga disiplin sangat bergantung pada CLT untuk melakukan inferensi pada statistik mereka.
Anehnya, 65 persen dari data yang didistribusikan secara normal ditolak dengan ukuran sampel 20, dan bahkan dengan ukuran sampel 30, 35% masih ditolak.
Mereka kemudian menguji beberapa distribusi yang sangat miring yang dibuat menggunakan metode kekuatan Fleishman:
X mewakili nilai yang diambil dari distribusi normal sedangkan a, b, c, dan d adalah konstanta (perhatikan bahwa a = -c).
Mereka menjalankan tes dengan ukuran sampel hingga 300
Mereka menemukan bahwa pada tingkat kemiringan dan kurt tertinggi (1,75 dan 3,75) bahwa ukuran sampel 300 tidak menghasilkan sampel berarti mengikuti distribusi normal.
Sayangnya, saya tidak berpikir bahwa ini adalah persis apa yang Anda cari, tetapi saya menemukan itu dan menemukan itu menarik, dan saya pikir Anda mungkin juga.
sumber