Saya mencoba memperkirakan rata-rata distribusi Gaussian yang kurang lebih melalui pengambilan sampel. Saya tidak memiliki pengetahuan sebelumnya tentang mean atau variansnya. Setiap sampel mahal untuk didapatkan. Bagaimana saya memutuskan secara dinamis berapa banyak sampel yang saya butuhkan untuk mendapatkan tingkat kepercayaan / akurasi tertentu? Atau, bagaimana saya tahu kapan saya bisa berhenti mengambil sampel?
Semua jawaban untuk pertanyaan-pertanyaan seperti ini yang dapat saya temukan tampaknya mengandaikan beberapa pengetahuan tentang varians, tetapi saya perlu menemukan hal itu di sepanjang jalan juga. Lainnya diarahkan untuk mengambil jajak pendapat, dan tidak jelas bagi saya (pemula bahwa saya) bagaimana generalisasi - rata-rata saya tidak dalam [0,1], dll.
Saya pikir ini mungkin pertanyaan sederhana dengan jawaban yang terkenal, tetapi Google-fu saya gagal. Bahkan memberi tahu saya apa yang harus dicari akan sangat membantu.
sumber
Jawaban:
Anda perlu mencari 'desain adaptif Bayesian'. Ide dasarnya adalah sebagai berikut:
Anda menginisialisasi sebelum untuk parameter yang menarik.
Sebelum pengumpulan data apa pun, prior Anda akan tersebar. Ketika data tambahan masuk Anda mengatur ulang sebelum menjadi posterior yang sesuai dengan 'data + sebelum sampai saat itu'.
Mengumpulkan data.
Hitung posterior berdasarkan data + prior. Posterior kemudian digunakan sebagai langkah sebelumnya pada langkah 1 jika Anda benar-benar mengumpulkan data tambahan.
Nilai apakah kriteria berhenti Anda terpenuhi
Kriteria berhenti dapat mencakup sesuatu seperti interval yang kredibel 95% tidak boleh lebih besar dari unit untuk parameter yang menarik. Anda juga bisa memiliki lebih banyak fungsi kerugian formal yang terkait dengan parameter bunga dan menghitung kerugian yang diharapkan sehubungan dengan distribusi posterior untuk parameter bunga.± ϵ
Anda kemudian ulangi langkah 1, 2 dan 3 sampai kriteria berhenti Anda dari langkah 4 dipenuhi.
sumber
Anda biasanya ingin setidaknya 30 untuk mengajukan teorema batas pusat (meskipun ini agak arbitrer). Tidak seperti dalam kasus dengan jajak pendapat dll, yang dimodelkan menggunakan distribusi binomial, Anda tidak dapat menentukan ukuran sampel sebelumnya yang menjamin tingkat akurasi dengan proses Gaussian - tergantung pada residu yang Anda dapatkan yang menentukan kesalahan standar.
Perlu dicatat bahwa jika Anda memiliki strategi pengambilan sampel yang kuat, Anda bisa mendapatkan hasil yang jauh lebih akurat daripada dengan ukuran sampel yang jauh lebih besar dengan strategi yang buruk.
sumber