Saya seorang pemula statistik, jadi minta maaf sebelumnya jika saya mengajukan pertanyaan braindead. Saya telah mencari jawaban untuk pertanyaan saya, tetapi saya menemukan bahwa banyak topik terlalu spesifik, atau dengan cepat melampaui apa yang saya pahami saat ini.
Saya memiliki beberapa pekerjaan simulasi yang mencakup kumpulan data besar yang menjadi tidak layak untuk disimulasikan secara mendalam. Untuk kumpulan data terkecil saya, rangkaian lengkap menyajikan distribusi hasil berikut dari total 9180900 tes.
Hasil / Frekuensi:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Apa artinya angka-angka itu tidak masalah; yang penting adalah bahwa kumpulan data yang lebih besar yang saya miliki dapat mencapai miliaran tes, dan menjadi terlalu memakan waktu untuk dijalankan. Saya perlu membatasi beban kerja.
Saya merasa saya harus dapat mengambil sampel dari set lengkap tes untuk mendapatkan distribusi untuk sampel, dan menyimpulkan (dalam beberapa batasan) bahwa hasil simulasi lengkap akan menunjukkan kurang lebih distribusi yang sama. Tidak ada bias yang melekat dalam tes yang dijalankan, sehingga secara acak memilih input yang seharusnya memberikan sampel yang valid.
Yang belum saya mengerti adalah bagaimana saya harus memilih ukuran sampel saya. Khususnya, distribusinya memperlihatkan ekor yang aneh, dan saya khawatir pengambilan sampel yang terlalu kecil akan kehilangan frekuensi yang lebih rendah. (The 140 kejadian '4' akun hanya 0,0015% dari populasi!)
Jadi, pertanyaan saya adalah, apa cara terbaik untuk menghitung ukuran sampel yang dengannya saya dapat menyatakan beberapa tingkat kebaikan dalam hasil saya?
Atau, apakah saya mengajukan pertanyaan yang salah?
Saya pikir analisis kekuatan terlalu rumit untuk apa yang Anda coba lakukan, dan mungkin mengecewakan Anda.
Dengan ukuran sampel utara 9 juta, saya pikir perkiraan Anda
p = Pr(X > 3) = 0.000015
cukup akurat. Jadi Anda dapat menggunakannya dalam model binomial (n, p) sederhana untuk memperkirakan ukuran sampel.Katakanlah tujuan Anda adalah untuk mengamati setidaknya satu peristiwa "Besar" dengan probabilitas 99,9%. Kemudian
Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999
dan ukuran sampel yang Anda inginkan adalahn = ln(0.001)/ln(0.999985) = 460514
.Tentu saja, jika Anda merasa beruntung dan bersedia mengambil risiko 10% untuk melewatkan acara Besar, Anda hanya perlu ukuran sampel n = 153505. Melipatgandakan ukuran sampel mengurangi peluang Anda untuk melewatkan acara Besar dengan faktor 100, jadi saya akan pergi untuk 460.000.
TAPI ... jika Anda mencari LIMA, probabilitasnya di sebelah selatan 1/9180902 dan untuk mengamati setidaknya satu dari MEREKA dengan probabilitas 99,9%, Anda akan membutuhkan ukuran sampel sekitar 63,4 juta!
Patuhi saran DrKNexus tentang memperbarui perkiraan probabilitas untuk acara besar, karena mungkin tidak konstan di semua set data Anda.
sumber