Perhitungan dinamis jumlah sampel yang diperlukan untuk memperkirakan rata-rata

9

Saya mencoba memperkirakan rata-rata distribusi Gaussian yang kurang lebih melalui pengambilan sampel. Saya tidak memiliki pengetahuan sebelumnya tentang mean atau variansnya. Setiap sampel mahal untuk didapatkan. Bagaimana saya memutuskan secara dinamis berapa banyak sampel yang saya butuhkan untuk mendapatkan tingkat kepercayaan / akurasi tertentu? Atau, bagaimana saya tahu kapan saya bisa berhenti mengambil sampel?

Semua jawaban untuk pertanyaan-pertanyaan seperti ini yang dapat saya temukan tampaknya mengandaikan beberapa pengetahuan tentang varians, tetapi saya perlu menemukan hal itu di sepanjang jalan juga. Lainnya diarahkan untuk mengambil jajak pendapat, dan tidak jelas bagi saya (pemula bahwa saya) bagaimana generalisasi - rata-rata saya tidak dalam [0,1], dll.

Saya pikir ini mungkin pertanyaan sederhana dengan jawaban yang terkenal, tetapi Google-fu saya gagal. Bahkan memberi tahu saya apa yang harus dicari akan sangat membantu.

Josh Bleecher Snyder
sumber
Ada alasan mengapa Anda menandai ini sebagai CW? Pertanyaan itu tampaknya cukup spesifik untuk memungkinkan satu jawaban yang benar dan karenanya tidak boleh CW.
1
@ Astaga tidak apa-apa. Saya hanya ingin tahu tentang pilihan Anda.
1
Google "pengambilan sampel adaptif" dan "pengambilan sampel berurutan". Jika Anda masih mandek, sertakan "Wald" sebagai kata kunci dan kemudian lanjutkan secara historis (mis., Lihat makalah yang mereferensikan karya Wald pada sampling berurutan, lalu lihat makalah yang mereferensikannya, dll.).
Whuber
1
@ Robby McKilliam: Tapi data apa yang Anda gunakan? Pertanyaan ini muncul sebelum data apa pun dikumpulkan. Jika Anda mengumpulkan nilai satu per satu dan menghitung CI setelah setiap yang baru ditambahkan ke dataset, Anda tidak dapat menggunakan rumus standar untuk interval karena beberapa perbandingan berkorelasi yang Anda buat. Dengan demikian, Anda memerlukan aturan penghentian yang mengoptimalkan jumlah risiko statistik penaksir Anda dan biaya pengumpulan setiap sampel tambahan.
whuber
1
@ terima kasih! Saya masih mencerna materi, tetapi saya pikir inilah yang saya cari. Jika ini adalah jawaban, saya akan menerimanya ...
Josh Bleecher Snyder

Jawaban:

2

Anda perlu mencari 'desain adaptif Bayesian'. Ide dasarnya adalah sebagai berikut:

  1. Anda menginisialisasi sebelum untuk parameter yang menarik.

    Sebelum pengumpulan data apa pun, prior Anda akan tersebar. Ketika data tambahan masuk Anda mengatur ulang sebelum menjadi posterior yang sesuai dengan 'data + sebelum sampai saat itu'.

  2. Mengumpulkan data.

  3. Hitung posterior berdasarkan data + prior. Posterior kemudian digunakan sebagai langkah sebelumnya pada langkah 1 jika Anda benar-benar mengumpulkan data tambahan.

  4. Nilai apakah kriteria berhenti Anda terpenuhi

    Kriteria berhenti dapat mencakup sesuatu seperti interval yang kredibel 95% tidak boleh lebih besar dari unit untuk parameter yang menarik. Anda juga bisa memiliki lebih banyak fungsi kerugian formal yang terkait dengan parameter bunga dan menghitung kerugian yang diharapkan sehubungan dengan distribusi posterior untuk parameter bunga.±ϵ

Anda kemudian ulangi langkah 1, 2 dan 3 sampai kriteria berhenti Anda dari langkah 4 dipenuhi.

pengguna28
sumber
0

Anda biasanya ingin setidaknya 30 untuk mengajukan teorema batas pusat (meskipun ini agak arbitrer). Tidak seperti dalam kasus dengan jajak pendapat dll, yang dimodelkan menggunakan distribusi binomial, Anda tidak dapat menentukan ukuran sampel sebelumnya yang menjamin tingkat akurasi dengan proses Gaussian - tergantung pada residu yang Anda dapatkan yang menentukan kesalahan standar.

Perlu dicatat bahwa jika Anda memiliki strategi pengambilan sampel yang kuat, Anda bisa mendapatkan hasil yang jauh lebih akurat daripada dengan ukuran sampel yang jauh lebih besar dengan strategi yang buruk.

James
sumber
3
Mengapa seseorang perlu memohon CLT ketika mengambil sampel dari distribusi Gaussian yang diketahui (atau diasumsikan)? Rata-rata bahkan satu sampel akan terdistribusi secara normal!
Whuber
Poin bagus! Tidak RTQ dengan benar.
James