Saya tertarik untuk memahami perbedaan antara "kemungkinan" dari suatu peristiwa acak dengan probabilitas tertentu yang benar-benar terjadi dengan probabilitas tepat yang dikatakan kemungkinan. yaitu jika suatu peristiwa memiliki probabilitas 1 banding 10.000, apa kemungkinannya dalam 10.000 uji coba itu akan terjadi tepat 1 kali, bukan 2 kali, bukan 0 kali, bukan 3 kali, dll. dan bagaimana seseorang mengungkapkan (dan menjelaskan) deviasinya?
Jika suatu peristiwa memiliki probabilitas 1: 10.000, maka dalam 100.000 uji coba kemungkinan akan terjadi 10 kali; dalam 1.000.000 uji coba, kemungkinan akan terjadi 100 kali, tetapi bukankah itu juga akan terjadi dalam set 1.000.000 uji coba berapa kali, misalnya: 98 kali, 99 kali, 101 kali, 96 kali, 102 kali, dll.
Secara statistik, berapa banyak uji coba yang harus dirata-ratakan dan diperhitungkan untuk mendekati kepastian statistik bahwa hasil tertentu sebenarnya 1: 10.000, dan bukan 1: 9999 atau 1: 10001 atau 1: 1000.5, dll?
sumber
Jawaban:
Sunting: Seperti yang ditunjukkan Mark L Stone dengan tepat, saya menganggap pertanyaan Anda menyiratkan bahwa persidangan independen tanpa membuktikan bahwa itulah masalahnya. Ini adalah asumsi kritis (dan mungkin tidak masuk akal dalam banyak situasi). Meskipun demikian saya akan terus menjawab atas dasar itu, karena saya terus berpikir bahwa itu adalah niat Anda.
Hal yang sama berlaku untukn uji coba dan probabilitas 1/n , untuk yang cukup besar n .
Probabilitas (untuk semua yang besarn ) terlihat seperti ini (menunjukkan kasing untuk n = 10000):
Tidak cukup: 99 dan 100 memiliki peluang yang sama, tetapi yang lainnya memiliki peluang lebih rendah:
(probabilitas terus turun saat Anda bergerak lebih jauh).
Secara khusus, Anda sedang berhadapan dengan distribusi binomial dengann=1000000 dan p=1/10000 .
Sejakn besar dan p kecil, baik didekati dengan distribusi Poisson dengan meanλ=np=100 .
Anda tidak dapat memastikan itu sebenarnya 1/10000, karena Anda dapat mendekatinya secara sewenang-wenang tetapi berbeda dari itu.
Din percobaan, jumlah keberhasilan yang diharapkan adalah np dengan sd np(1−p)−−−−−−−−√≈np−−√ .
Jikap=1/10000 , dan n=1012 , maka jumlah keberhasilan yang diharapkan adalah 108 dengan sd 104 ; jikap=1/9999 perkiraan jumlah keberhasilan yang diharapkan 100,010,000 ... tentang satu standar deviasi - tidak cukup untuk membedakan mereka "andal". Tetapi dengann=4×1012 , kamu tentang 2 sd pergi, dan Anda dapat membedakan mereka lebih mudah itu mungkin sekitar serendah yang diinginkan kebanyakan orang. Din=1013 Anda dapat membedakan mereka dengan cukup baik (kemungkinan 1/10000 terlihat seperti 1/9999 atau 1/10001 atau apa pun yang lebih jauh secara kebetulan sangat kecil pada saat itu).
Katakanlah Anda senang1013 uji coba untuk membedakan p=1/10000 dari 1/9999 . Jika Anda ingin mengesampingkan 1/9999.5 dengan keyakinan yang sama dengan yang Anda miliki untuk mengesampingkan 1/9999, Anda akan membutuhkan 4 kali lebih banyak percobaan.
Anda dapat melihat bahwa menjabarkan proporsi ke banyak angka akurasi (kapanp sangat kecil) membutuhkan banyak percobaan; Anda memerlukan ukuran sampel beberapa kali lebih banyak dari(1/p)3 untuk mendapatkan perkiraan yang cukup akurat sehingga Anda dapat mengesampingkan p=1/(k±1) kapan itu benar-benar 1/k .
Ya, bisa ditanyakan pada 10.000 uji coba atau 1000 atau 100.
Mari sederhanakan hal-hal dan ambil 10.000 percobaan dan 98 kesuksesan. Seseorang tentu saja dapat mengambil sebagai titik perkiraan probabilitas keberhasilan 98/10000 = 0,0098 tetapi ini tidak akan benar-benar menjadi proporsi yang mendasarinya, hanya perkiraan itu. Mungkin 0,944 ... atau 0,997 ... atau sejumlah nilai lainnya.
Jadi satu hal yang dilakukan orang adalah membangun interval nilai yang (dalam beberapa hal) cukup konsisten dengan proporsi yang diamati. Ada dua filosofi utama statistik (statistik Bayesian dan frequentist) yang dalam sampel besar biasanya cenderung menghasilkan interval yang sama tetapi yang memiliki interpretasi yang agak berbeda.
Yang paling umum adalah interval kepercayaan (sering) ; interval untuk parameter (p ) yang akan (lebih dari pengulangan dari percobaan yang sama) diharapkan termasuk parameter proporsi waktu tertentu.
Interval Bayesian yang khas akan dimulai dengan distribusi sebelumnya pada parameter yang mewakili ketidakpastian Anda tentang nilainya, dan menggunakan data untuk memperbarui pengetahuan itu ke distribusi posterior dan dari sana memperoleh interval yang kredibel .
Interval kepercayaan sangat banyak digunakan (meskipun interval yang kredibel mungkin mendekati harapan Anda tentang apa yang harus dilakukan interval). Dalam kasus interval kepercayaan proporsi binomial , seperti di sini, ada berbagai pendekatan, meskipun dalam sampel besar mereka semua memberi Anda interval yang hampir sama.
Benar; Anda akan mengharapkan (dengan dadu yang adil) untuk mendapatkan antara 999,94 juta dan 1000,06 juta kesuksesan hampir (tetapi tidak cukup) setiap kali Anda mencobanya.
Itu akan hampir selalu terus konsisten dengan itu (dan dengan berbagai nilai terdekat lainnya). Apa yang terjadi bukanlah Anda dapat mengatakannya 1/10000, tetapi bahwa interval nilai probabilitas yang konsisten dengan hasil Anda akan semakin sempit saat ukuran sampel bertambah.
sumber
Saya datang ke pertanyaan ini berdasarkan judulnya, sambil berharap untuk menemukan kemungkinan acara denganp=1n terjadi setidaknya sekali dalamn iterasi. Aku tahu pertanyaan Anda adalah tentang persis sekali tapi saya kira itu entah bagaimana terkait.
Sepertinya untukn cukup besar, kemungkinan ini cenderung 1/e≃0.632 dan (sangat mengejutkan) hampir tidak tergantung n .
Penjelasan:
Misalkan saya melempar dadu 6 kali. Peluang untuk mendapatkan
1
setidaknya satu dari 6 percobaan tersebut adalah:Demikian pula, anggap suatu peristiwa memiliki probabilitas
1/10000
. Peluang kejadian ini terjadi setidaknya sekali10000
percobaan adalah:Kami dapat memperkirakan ini untuk apa saja
n
dan mendapatkan:Merencanakan persamaan ini dalam Grapher , kita mendapatkan sesuatu seperti ini:
Kesimpulan: walaupun itu masuk akal, saya sebenarnya cukup terkejut dengan fakta bahwa ada kemungkinan suatu kejadianp=1n terjadi setidaknya sekali keluar n mencoba hampir independen n , untuk n sekecil 3 sudah.
sumber
Biarkan membangun masalah sederhana pada dadu. Mari kita menghitung probabilitas
kemungkinanbahwa pada 6 lemparan dadu, skor akan menjadi 1 tepat satu kali.Berapa banyak cara ini bisa terjadi [dan probabilitas masing-masing]:
jadi total probabilitas bahwa 1 hanya mendapat skor sekali dalam 6 lemparan adalah (3125/46656) * 6 = 3125/7776
Anda dapat memperluas pengembangan yang sama untuk acara dengan probabilitas 1 / n. Kemungkinan kejadian hanya terjadi satu kali dalam n percobaan
Ini mungkin terlihat agak akrab ketika saya mengatur ulang:
Bagian lain dari pertanyaan Anda: mengurangi penyimpangan dengan bertambahnya jumlah sampel, sudah dijelaskan dengan baik dalam jawaban lain.
sumber