Di forum penamaan bayi, calon orang tua mengulangi beberapa versi Ketakutan Jennifer mereka sepanjang waktu: "Saya tidak ingin anak saya menjadi salah satu dari 5 di kelasnya dengan namanya." Masalahnya, tidak ada nama yang mendekati popularitas semacam itu lagi, dan bahkan pada puncak kegemaran Jennifer, Anda tidak mendapatkan lima dari mereka di kelas. Saya ingin semacam jawaban bagi orang tua ini tentang betapa tidak mungkinnya kebetulan pengulangan nama itu.
Dengan menggunakan data nama bayi Administrasi Sosial yang luas ( https://www.ssa.gov/oact/babynames/limits.html ), bisakah seseorang memberi tahu saya cara mengetahui peluang kelas sekolah dasar di AS memiliki lima anak-anak dengan nama yang sama? (Untuk kesederhanaan, dengan "nama yang sama" Maksudku ejaan yang sama, dan dengan "kelas sekolah" Maksudku semua anak lahir di tahun yang sama.) Saya tidak menentukan ukuran kelas, tetapi pasti harus lebih besar dari 4 . :-)
sumber
Jawaban:
Semua data dapat ditemukan di sini . Setiap nilai dalam tabel mewakili probabilitas yang diberikan sampel 25-orang dari lokasi itu dan tahun kelahiran, 5 dari mereka akan berbagi nama.
Metode : Saya menggunakan Binomial PDF pada masing-masing nama untuk menemukan probabilitas bahwa setiap kelas 25-orang akan memiliki 5 orang yang berbagi nama:
Misalnya, jika ada total 4.000.000 anak-anak, dan 21.393 Emily, maka probabilitas bahwa ada 5 Emily di setiap kelas dengan 25 siswa adalah Binomial (25, 5, 0.0053) = 0,0000002. Menjumlahkan semua nama tidak memberikan jawaban yang pasti, karena dengan Prinsip Penyertaan / Pengecualian , kita juga harus memperhitungkan kemungkinan memiliki beberapa kelompok yang terdiri dari 5 orang yang berbagi nama. Namun, karena probabilitas ini untuk semua tujuan praktis hampir nol, saya menganggapnya diabaikan, dan dengan demikian .P(⋃Ai)≈∑P(Ai)
Pembaruan: Seperti banyak orang tunjukkan, ada perbedaan yang cukup besar dari waktu ke waktu, dan antara negara. Jadi saya menjalankan program yang sama, berdasarkan NEGARA DENGAN NEGARA, dan seiring waktu. Berikut adalah hasilnya (probabilitas nasional adalah merah, masing-masing negara hitam):
Yang menarik, Vermont (negara bagian asal saya) secara konsisten merupakan salah satu tempat yang paling memungkinkan terjadinya hal ini selama beberapa dekade terakhir.
sumber
silakan lihat skrip Python berikut untuk Python2.
Jawaban diilhami oleh jawaban David C.
Jawaban terakhir saya adalah, probabilitas menemukan setidaknya lima Jacobs dalam satu kelas, dengan Jacob menjadi nama yang paling mungkin menurut data dari https://www.ssa.gov/oact/babynames/limits.html "Data Nasional "dari 2006.
Probabilitas dihitung menurut distribusi binomial dengan Jacob-Probability menjadi probabilitas keberhasilan.
Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 25: 4.7e-07 untuk nama Jacob
Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 50: 1.6e-05 untuk nama Jacob, tentu saja.
Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 100: 0,00045 untuk nama Jacob, tentu saja.
Dengan faktor 10 hasil yang sama dengan David C. Terima kasih. (Jawaban saya tidak menjumlahkan semua nama, harus dibahas)
sumber