Saya tahu ini adalah topik yang agak panas di mana tidak ada yang benar-benar dapat memberikan jawaban sederhana. Namun demikian saya bertanya-tanya apakah pendekatan berikut ini tidak bisa bermanfaat.
Metode bootstrap hanya berguna jika sampel Anda mengikuti kurang lebih (baca persis) distribusi yang sama dengan populasi asli. Untuk memastikan hal ini, Anda perlu membuat ukuran sampel Anda cukup besar. Tapi apa yang cukup besar?
Jika premis saya benar, Anda memiliki masalah yang sama ketika menggunakan teorema batas pusat untuk menentukan rata-rata populasi. Hanya ketika ukuran sampel Anda cukup besar Anda dapat yakin bahwa populasi rata-rata sampel Anda terdistribusi secara normal (sekitar mean populasi). Dengan kata lain, sampel Anda harus mewakili populasi Anda (distribusi) dengan cukup baik. Tetapi sekali lagi, apa yang cukup besar?
Dalam kasus saya (proses administrasi: waktu yang dibutuhkan untuk menyelesaikan permintaan vs jumlah permintaan) Saya memiliki populasi dengan distribusi multi-modal (semua permintaan yang selesai pada tahun 2011) di mana saya 99% yakin bahwa itu bahkan kurang terdistribusi normal daripada populasi (semua tuntutan yang selesai antara hari ini dan hari di masa lalu, idealnya rentang waktu ini sekecil mungkin) Saya ingin meneliti.
Populasi 2011 saya ada di luar unit yang cukup untuk membuat sampel dengan ukuran sampel n . Saya memilih nilai x , misalkan 10 ( x = 10 ). Sekarang saya menggunakan trial and error untuk menentukan ukuran sampel yang baik. Saya mengambil n = 50 , dan melihat apakah populasi rata-rata sampel saya terdistribusi secara normal dengan menggunakan Kolmogorov-Smirnov. Jika demikian saya ulangi langkah yang sama tetapi dengan ukuran sampel 40 , jika tidak ulangi dengan ukuran sampel 60 (dll.).
Setelah beberapa saat saya menyimpulkan bahwa adalah ukuran sampel minimum absolut untuk mendapatkan representasi yang kurang lebih baik dari populasi 2011 saya. Karena saya tahu populasi yang saya minati (semua permintaan yang selesai antara hari ini dan satu hari di masa lalu) memiliki varian yang lebih sedikit, saya dapat dengan aman menggunakan ukuran sampel n = 45 untuk bootstrap. (Secara tidak langsung, n = 45 menentukan ukuran rentang waktu saya: waktu yang dibutuhkan untuk menyelesaikan 45 permintaan.)
Menanggapi jawaban pertama Terima kasih telah membalas, Jawaban Anda sangat berguna bagi saya terutama tautan buku.
Tetapi saya khawatir bahwa dalam upaya saya untuk memberikan informasi, saya sepenuhnya mengaburkan pertanyaan saya. Saya tahu bahwa sampel bootstrap mengambil alih distribusi sampel populasi. Saya mengikuti Anda sepenuhnya tetapi ...
Sampel populasi asli Anda harus cukup besar untuk cukup yakin bahwa distribusi sampel populasi Anda sesuai (sama) dengan distribusi populasi 'nyata'.
Ini hanyalah sebuah gagasan tentang bagaimana menentukan seberapa besar ukuran sampel asli Anda perlu agar cukup yakin bahwa distribusi sampel sesuai dengan distribusi populasi.
Misalkan Anda memiliki distribusi populasi bimodal dan satu top jauh lebih besar dari yang lainnya. Jika ukuran sampel Anda 5, kemungkinan besar bahwa semua 5 unit memiliki nilai yang sangat dekat dengan bagian atas besar (peluang untuk secara acak menggambar unit ada yang terbesar). Dalam hal ini distribusi sampel Anda akan terlihat monomodal.
Dengan ukuran sampel seratus kemungkinan distribusi sampel Anda juga bimodal jauh lebih besar !! Masalah dengan bootstrap adalah bahwa Anda hanya memiliki satu sampel (dan Anda membangun lebih jauh pada sampel itu). Jika distribusi sampel benar-benar tidak sesuai dengan distribusi populasi Anda berada dalam masalah. Ini hanya sebuah ide untuk membuat peluang memiliki 'distribusi sampel yang buruk' serendah mungkin tanpa harus membuat ukuran sampel Anda sangat besar.
sumber
checkout bayesian bootstrap sampling yang mungkin mengatasi ukuran sampel kecil. Lihat http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ untuk rincian lebih lanjut.
sumber