Berapa probabilitas n orang dari daftar m orang yang berada dalam pemilihan acak x orang dari daftar orang y?

10

Jika saya memilih 232 orang dari kumpulan 363 orang tanpa penggantian, berapakah probabilitas 2 dari daftar 12 orang tertentu berada dalam seleksi itu?

Ini adalah undian acak untuk balapan ultra di mana ada 363 peserta untuk 232 tempat. Ada argumen tentang apakah seleksi itu bias terhadap kelompok tertentu yang terdiri dari 12 orang.

Upaya awal saya menghitung ini adalah bahwa ada 232 memilih 363 pilihan yang mungkin. Jumlah kombinasi dari setiap orang dari daftar dua belas adalah 1 pilih 12 + 2 pilih 12 + ... + 11 pilih 12 + 12 pilih 12. Jadi 1 pilih 12 + 2 pilih 12 .... / 232 pilih 363 Yang akhirnya menjadi angka yang sangat rendah yang jelas terlalu rendah.

Bagaimana saya menghitung ini?

combinatorics randomness hypergeometric Sersan
sumber

1

Dua poin teknis. Pertama, Anda sekarang berurusan dengan kemungkinan daripada probabilitas karena hasilnya diketahui. Kedua, tidak masalah apa kemungkinan teoretisnya, mengingat Anda memiliki hasil. Saya pikir akan lebih baik untuk mendekati metode yang digunakan untuk seleksi: bagaimana pilihan dipilih? Anda harus membuktikan kebenaran metode, bukan kebenaran hasilnya.

Michelle

1

Orang akan melihat ini sebagai kemungkinan, Michelle, untuk tujuan memperkirakan probabilitas seleksi. Tampaknya tidak demikian di sini.

whuber

Anda harus berhati-hati dalam menggunakan perhitungan sederhana dari RV hypergeometric, karena 12 orang yang mengeluh tidak dipilih secara acak. Mereka mengeluh karena mereka tidak dipilih.

Guy

10

Saya menafsirkan pertanyaan seperti ini: seandainya pengambilan sampel konon dilakukan seolah-olah tiket kertas putih dimasukkan ke dalam botol, masing-masing dilabeli dengan nama satu orang, dan diambil secara acak setelah secara menyeluruh mengaduk isi botol itu. Sebelumnya, tiket diwarnai merah. Berapa peluang tepatnya dua tiket yang dipilih berwarna merah? Berapa peluang bahwa paling banyak dua tiket berwarna merah? $363$ $232$ $12$

Formula yang tepat dapat diperoleh, tetapi kita tidak perlu melakukan banyak pekerjaan teoritis. Sebagai gantinya, kami hanya melacak peluang saat tiket ditarik dari toples. Pada saat dari mereka telah ditarik, biarkan kesempatan yang tepat tiket merah telah terlihat ditulis . Untuk memulai, perhatikan bahwa jika (Anda tidak dapat memiliki tiket merah sebelum Anda mulai) dan (sudah pasti Anda tidak memiliki tiket merah di awal). Sekarang, pada undian terbaru, baik tiketnya merah atau bukan. Dalam kasus pertama, kami sebelumnya memiliki kesempatan $m$ $i$ $p(i,m)$ $p(i,0)=0$ $i\gt 0$ $p(0,0)=1$ untuk melihat secara tepat tiket merah. Kami kemudian terjadi kemudian untuk menarik yang merah dari sisa tiket, membuatnya persis tiket merah sejauh ini. Karena kami menganggap semua tiket memiliki peluang yang sama di setiap tahap, maka kesempatan kami untuk menggambar merah dengan cara ini adalah . Dalam kasus lain, kami memiliki kesempatan $p(i-1,m-1)$ $i-1$ $363 - m + 1$ $i$ $(12-i+1) / (363 - m + 1)$ untuk mendapatkan persisnya merah diundian sebelumnya, dan kemungkinantidakmenambahkan tiket merah lain ke sampel pada undian berikutnya adalah . Dari mana, menggunakan aksioma dasar probabilitas (yaitu, kemungkinan dua kasus yang saling eksklusif menambah dan peluang bersyarat bertambah banyak), $p(i,m-1)$ $i$ $m-1$ $(363 - m + 1 - 12 + i) / (363 - m + 1)$

hal (saya, m) = \frac{hal (saya - 1, m - 1) (12 - saya + 1) + hal (saya, m - 1) (363 - m + 1 - 12 + saya)}{363 - m + 1} .

$p(i,m) = \frac{p(i-1,m-1) (12-i+1) + p(i,m-1) (363 - m + 1 - 12 + i)}{363 - m + 1}.$

Kami mengulangi perhitungan ini secara rekursif, meletakkan array segitiga dari nilai-nilai untuk dan . Setelah sedikit perhitungan kita memperoleh dan $p(i,m)$ $0\le i\le 12$ $0 \le m \le 232$ $p(2,232) \approx 0.000849884$ , menjawab kedua versi pertanyaan. Ini adalah angka kecil: tidak peduli bagaimana Anda melihatnya, itu adalah peristiwa yang cukup langka (jarang lebih dari satu dalam seribu). $p(0,232)+p(1,232)+p(2,232)\approx 0.000934314$

Sebagai pemeriksaan ulang, saya melakukan latihan ini dengan komputer 1.000.000 kali. Pada 932 = 0,000932 percobaan ini, 2 atau lebih sedikit tiket merah diamati. Ini sangat dekat dengan hasil yang dihitung, karena fluktuasi pengambilan sampel pada nilai yang diharapkan dari 934,3 adalah sekitar 30 (naik atau turun). Inilah cara simulasi dilakukan dalam R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Kali ini, karena percobaannya acak, hasilnya berubah sedikit: dua atau lebih sedikit tiket merah diamati pada 948 dari sejuta percobaan. Itu masih konsisten dengan hasil teoretis.)

Kesimpulannya adalah bahwa sangat tidak mungkin bahwa dua atau kurang dari 232 tiket akan berwarna merah. Jika Anda memang memiliki sampel 232 dari 363 orang, hasil ini merupakan indikasi kuat bahwa model tiket-dalam-wadah tidak merupakan deskripsi yang benar tentang bagaimana sampel diperoleh. Penjelasan alternatif termasuk (a) tiket merah dibuat lebih sulit untuk diambil dari toples ("bias" terhadap mereka) serta (b) tiket diwarnai setelah sampel diamati ( data post-hoc mengintai, yang tidak tidak menunjukkan bias apa pun).

Contoh penjelasan (b) dalam aksi akan menjadi kumpulan juri untuk pengadilan pembunuhan yang terkenal kejam. Misalkan itu termasuk 363 orang. Keluar dari kolam itu, pengadilan mewawancarai 232 dari mereka. Seorang reporter surat kabar yang ambisius dengan cermat menelaah riwayat hidup semua orang di kolam renang dan mengetahui bahwa 12 dari 363 adalah peternak ikan mas, tetapi hanya dua dari mereka yang diwawancarai. Apakah pengadilan bias terhadap peternak ikan mas? Mungkin tidak.

whuber
sumber

NB Dalam simulasi, tidak masalah bahwa itu adalah 12 "tiket" pertama yang ditandai, karena semua pengambilan sampel dilakukan secara acak tanpa penggantian (melalui sample). Akibatnya, pada setiap iterasi, Anda harus samplemencampur tiket dengan seksama setiap kali dipanggil sebelum menarik 232 tiket.

Whuber

2

Kebaikan - itu sebenarnya bukan hasil yang saya harapkan. Terima kasih atas kerja saksama dan penjelasan Anda. (Anehnya, saya benar-benar melakukan beberapa pelatihan statistik di University of Auckland tempat R pertama kali dikembangkan)

Sarge

10

@whuber memberikan penjelasan lengkap, saya hanya ingin menunjukkan bahwa ada distribusi statistik standar yang sesuai dengan skenario ini: distribusi hypergeometric . Jadi, Anda dapat memperoleh probabilitas semacam itu secara langsung di, katakanlah, R:

Kemungkinan tepat 2 dari 12 yang dipilih:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Probabilitas 2 atau lebih sedikit dari 12 yang dipilih:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

Aniko
sumber

+1 Terima kasih. Saya seharusnya menyebutkan hubungan ini. Distribusi hypergeometrik secara klasik muncul dalam eksperimen pengambilan sampel-sampel. 12 orang tertentu ("tiket merah" saya) seperti ikan yang telah ditangkap, ditandai, dan dilemparkan kembali ke kolam; sampel 232 adalah seperti himpunan ikan yang kemudian ditangkap. Distribusi hypergeometrik menggambarkan frekuensi ikan yang ditangkap kembali.

whuber

0

Peluangnya jauh lebih tinggi daripada yang dihitung dengan distribusi hipergeometrik sederhana, karena kelompok tidak dipilih secara acak ( "12 ikan dicat merah sebelum undian" ).

Dari uraian pertanyaan, kami menguji adanya penipuan dalam pengundian. Kelompok khusus 12 orang mengeluh bahwa hanya 2 dari mereka yang dipilih, sementara jumlah yang diharapkan adalah 232/363 ~ 2/3 = 8.

Yang benar-benar perlu kita hitung adalah berapa peluang bahwa " Tidak ada grup dengan ukuran 12 hanya akan memiliki 2 anggota yang dipilih". Kemungkinan bahwa setidaknya satu kelompok akan memiliki 2 atau lebih sedikit (karena itu akan mengeluh terhadap keadilan undian) jauh lebih tinggi.

Ketika saya menjalankan simulasi ini, dan memeriksa berapa banyak percobaan yang tidak satupun dari 30 (= 360/12) kelompok memiliki 2 atau lebih sedikit pilihan, saya mendapatkan sekitar 2,3% dari waktu. 1:42 rendah tetapi bukan tidak mungkin.

Anda masih harus memeriksa prosedur pengundian karena mungkin bias terhadap kelompok orang tertentu. Mereka mungkin telah berkumpul dan menerima serangkaian undian dengan probabilitas lebih kecil (angka pertama atau terakhir, misalnya), atau variabel dependen apa pun pada prosedur undian. Tetapi jika Anda tidak menemukan kesalahan dalam prosedur, Anda dapat kembali ke peluang 1:42 bahwa itu adalah nasib buruk bagi grup.

Orang
sumber

Poin yang baik, TETAPI (a) tentu saja tidak semua kelompok yang mungkin dari 12 memiliki cukup banyak kesamaan dengan materi, dan (b) tidak semua kelompok yang memiliki cukup banyak kesamaan dengan materi memiliki tepat 12 anggota.

zbicyclist

@ zbicyclist, saya tidak mengklaim bahwa perhitungannya akurat. Saya ingin memberikan keraguan yang wajar (karena kita berada di ranah hukum dengan deteksi penipuan), bahwa pengundian tidak bersalah.

Guy

Berapa probabilitas n orang dari daftar m orang yang berada dalam pemilihan acak x orang dari daftar orang y?

Jawaban: