Apa jawaban sebenarnya untuk pertanyaan Ulang Tahun?

13

"Seberapa besar kelas yang seharusnya membuat kemungkinan menemukan dua orang dengan ulang tahun yang sama setidaknya 50%?"

Saya memiliki 360 teman di facebook, dan, seperti yang diharapkan, distribusi ulang tahun mereka tidak seragam sama sekali. Saya punya satu hari dengan yang memiliki 9 teman dengan ulang tahun yang sama. (9 bulan setelah hari libur besar dan hari kasih sayang sepertinya adalah hari yang besar, lol ..) Jadi, mengingat bahwa beberapa hari lebih mungkin untuk ulang tahun, saya berasumsi bahwa angka 23 adalah kenaikan.

Apakah ada perkiraan yang lebih baik untuk masalah ini?

Adam
sumber
3
Sampel 360 orang tidak membuat sampel besar untuk distribusi ulang tahun lebih dari 365 hari dalam setahun ... Anda tentu tidak dapat memeriksa keseragaman atas sampel sekecil itu.
Xi'an
Seseorang memiliki hari ulang tahun, apa kemungkinan orang kedua tidak berbagi hari ulang tahun yang sama? 364/365, apa kemungkinan orang ketiga tidak berbagi ulang tahun? (364/365) * (363/365). Perluas ini sampai Anda punya probabilitas < 50%. Ini berarti kemungkinan bahwa tidak ada orang yang memiliki hari ulang tahun yang sama, yang pada gilirannya akan berarti bahwa peluang bagi setidaknya dua orang untuk berbagi ulang tahun adalah > 50%.
zzzzBov
8
Apakah kami menganggap Anda memiliki teman acak ?
James
1
@zzzzBov - Anda tidak mengerti apa yang diminta OP. Ini adalah pendekatan di mana kami menganggap setiap ulang tahun memiliki kemungkinan yang sama, masing-masing dengan peluang menjadi milik Anda. OP menanyakan perkiraan apa yang akan terjadi ketika mengatakan lahir pada 1 Januari tidak seperti kelahiran pada 15 Februari1365
probabilityislogic

Jawaban:

18

Untungnya seseorang telah memposting beberapa data ulang tahun asli dengan sedikit diskusi tentang pertanyaan terkait (adalah seragam distribusi). Kami dapat menggunakan ini dan melakukan resampling untuk menunjukkan bahwa jawaban untuk pertanyaan Anda ternyata 23 - sama dengan jawaban teoretis .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Peter Ellis
sumber
8
Memang, seseorang dapat menunjukkan melalui Schur convexity , bahwa untuk setiap distribusi ulang tahun yang tidak seragam, probabilitas kecocokan setidaknya sama besarnya dengan dalam kasus seragam. Ini adalah Latihan 13.7 dari J. Michael Steele, The Master Cauchy-Schwarz: Pengantar Seni Ketimpangan Matematika , Cambridge University Press, 2004, hal. 206 .
kardinal
2
@ Xi'an: Memang. Sekarang, andai saja saya mengenal seseorang yang membuat ulasan buku untuk majalah statistik pembaca dengan kualitas tinggi, saya sarankan mereka mengulasnya untuk memberikan visibilitas yang lebih tinggi kepada para ahli statistik ... tetapi di mana menemukan orang seperti itu ...
kardinal
3
(Bagi mereka yang mungkin bertanya-tanya tentang komentar saya sebelumnya, itu merujuk fakta bahwa @ Xi'an adalah resensi buku yang baru ditunjuk untuk Peluang .)
kardinal
2
@ Xi'an, periksa ini dan melihat apa yang Anda pikirkan: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Mungkin tidak jelas, kecuali untuk R cognoscenti, bahwa kode dalam komentar sebelumnya oleh @ Xi'an dan saya sendiri mensimulasikan situasi OP. Running it menetapkan bahwa peluang 9 orang atau lebih untuk berbagi ulang tahun, dari 360 yang dipilih secara acak dari populasi yang terdistribusi seragam, hanya sekitar 40 dari 100.000. Nilai yang paling mungkin untuk jumlah maksimum ulang tahun bersama adalah 5.
whuber