Bantu saya menghitung berapa banyak orang yang akan datang ke pernikahan saya! Dapatkah saya menghubungkan persentase ke setiap orang dan menambahkannya?

37

Saya merencanakan pernikahan saya. Saya ingin memperkirakan berapa banyak orang yang akan datang ke pernikahan saya. Saya telah membuat daftar orang dan kemungkinan mereka akan hadir dalam persentase. Sebagai contoh

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Saya memiliki daftar sekitar 230 orang dengan persentase. Bagaimana saya bisa memperkirakan berapa banyak orang yang akan menghadiri pernikahan saya? Bisakah saya menjumlahkan persentase dan membaginya dengan 100? Misalnya, jika saya mengundang 10 orang dengan masing-masing peluang 10% untuk datang, saya dapat mengharapkan 1 orang? Jika saya mengundang 20 orang dengan peluang 50% untuk datang, bisakah saya mengharapkan 10 orang?

PEMBARUAN: 140 orang datang ke pernikahan saya :). Menggunakan teknik yang dijelaskan di bawah ini saya memperkirakan sekitar 150. Tidak terlalu buruk!

Behacad
sumber
43
Saya tidak melihat sosok untuk orang yang Anda nikahi. Itu adalah jumlah yang paling penting.
Nick Cox
6
Saya menggunakan teknik Anda untuk pernikahan saya dan itu bekerja dengan baik; kami memperkirakan sekitar 80 orang dan memperoleh 85 atau lebih. Saya perhatikan bahwa setelah Anda memiliki semua orang di spreadsheet Anda, Anda juga dapat menggunakan spreadsheet yang sama untuk melacak hal-hal seperti kepada siapa Anda telah mengirim catatan terima kasih, dan seterusnya.
Eric Lippert
2
Relevan: timharford.com/2013/10/guest-list-angst-a-statistic-approach . Untuk apa nilainya, saya telah memilih tautan ke blog pribadi penulis tetapi artikel tersebut dari kolomnya di Financial Times.
Steve Jessop
@EricLippert Saya mencoba sesuatu yang serupa untuk pernikahan saya tetapi tidak berhasil dengan baik. Ada badai yang sangat parah pada hari itu dan semua orang <30% sedang dengan satu jam perjalanan atau lebih tidak muncul.
OSE
3
@NickCox Juga mereka lupa mereka sendiri.
JFA

Jawaban:

32

Dengan asumsi bahwa keputusan orang yang diundang untuk datang ke pernikahan adalah independen, jumlah tamu yang akan datang ke pernikahan dapat dimodelkan sebagai jumlah variabel acak Bernoulli yang belum tentu probabilitas keberhasilan yang identik. Ini sesuai dengan distribusi binomial Poisson .

Biarkan menjadi variabel acak yang sesuai dengan jumlah total orang yang akan datang ke pernikahan Anda dari N orang yang diundang. Jumlah tersebut diharapkan peserta memang jumlah individu 'show-up '' probabilitas p i , yaitu E ( X ) = N Σ i =XNhalsaya Derivasi interval kepercayaan tidak mudah mengingat bentukfungsi massa probabilitas. Namun, mereka mudah diperkirakan dengansimulasiMonte Carlo.

E(X)=saya=1Nhalsaya.

Gambar berikut ini menunjukkan contoh distribusi jumlah peserta ke pernikahan berdasarkan pada 10.000 skenario simulasi (kanan) menggunakan beberapa probabilitas palsu untuk 230 orang yang diundang (kiri). Kode R yang digunakan untuk menjalankan simulasi ini ditunjukkan di bawah ini; ini memberikan perkiraan interval kepercayaan.

masukkan deskripsi gambar di sini

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 
QuantIbex
sumber
1
Wow ini luar biasa. Simulasi macam apa ini sebenarnya?
Behacad
4
Ini adalah simulasi Monte Carlo
QuantIbex
Bagaimana Anda mengubah "ukuran grup" menjadi jumlah tamu? Saya memiliki figur seperti milik Anda di sebelah kiri, tetapi tidak yakin bagaimana mengubahnya menjadi sosok di sebelah kanan ...
Behacad
Ini dilakukan pada baris 11 hingga 18 dari kode yang disediakan dalam jawaban. Untuk skenario j, saya menghasilkan jumlah "show-up" untuk masing-masing dari 20 kelompok probabilitas menggunakan distribusi binomial dan probabilitas untuk muncul dari kelompok itu.
QuantIbex
18

Seperti yang telah ditunjukkan, harapan hanya menambahkan.

Namun, mengetahui harapan itu tidak banyak berguna, Anda juga perlu merasakan kemungkinan variasi di sekitarnya.

Ada tiga hal yang perlu Anda perhatikan:

  • variasi pada individu di sekitar harapan mereka (seseorang dengan peluang 60% untuk datang tidak benar-benar mencapai harapan mereka; mereka selalu berada di atas atau di bawahnya)

  • ketergantungan antar orang. Pasangan yang mungkin sama-sama datang akan cenderung hadir atau tidak. Anak-anak kecil tidak akan hadir tanpa orang tua mereka. Dalam beberapa kasus, beberapa orang mungkin menghindari datang jika mereka tahu orang lain akan ada di sana.

  • kesalahan dalam estimasi probabilitas. Probabilitas itu hanya dugaan; Anda mungkin ingin mempertimbangkan efek tebakan yang agak berbeda (mungkin penilaian orang lain tentang angka-angka itu)

Yang pertama setuju dengan perhitungan, baik dengan perkiraan normal atau melalui simulasi. Yang kedua dapat disimulasikan dengan berbagai asumsi, baik khusus untuk orang-orang, atau dengan mempertimbangkan distribusi ketergantungan. (Item ketiga lebih sulit.)


Diedit untuk menjawab pertanyaan tindak lanjut dalam komentar:

Jika saya memahami ungkapan Anda dengan benar, untuk keluarga dengan 4 orang, Anda memiliki peluang 50% masing-masing dari 4 orang atau tidak ada yang datang. Itu angka yang diharapkan dari 2, tentu saja, tetapi Anda juga ingin memiliki gagasan tentang variabilitas di sekitar ekspektasi, dalam hal ini Anda mungkin ingin mempertahankan situasi aktual 50% dari 0/50% dari 4.

Jika Anda dapat mempartisi semua orang menjadi kelompok-kelompok independen, perkiraan pertama yang baik (dengan banyak kelompok seperti itu) akan kemudian menambahkan cara dan varians di seluruh kelompok independen dan kemudian memperlakukan jumlah tersebut seperti biasa (mungkin dengan koreksi kontinuitas). Pendekatan yang lebih akurat adalah mensimulasikan proses atau menghitung distribusi secara tepat melalui konvolusi numerik; sementara kedua pendekatan itu mudah, ini adalah tingkat presisi yang tidak perlu untuk aplikasi khusus ini, karena sudah ada begitu banyak lapisan perkiraan - seperti diberi tahu dimensi ruangan ke kaki terdekat dan kemudian menghitung berapa banyak cat yang Anda perlukan ke mililiter terdekat - ketepatan tambahan tidak ada gunanya.

Jadi bayangkan (untuk kesederhanaan) kami memiliki empat kelompok:

1) grup A (1 individu) - 70% kemungkinan hadir

2) grup B (1 individu) - 60% kemungkinan hadir

3) grup C (keluarga 4) - 0: 0,5 4: 0,5 (jika ada yang tinggal di rumah, tidak ada yang akan datang)

4) kelompok D (pasangan 2) - 0: 0,4 1: 0,1 2: 0,5 (yaitu peluang 50% dari keduanya, ditambah peluang 10% tepat satu akan datang, misalnya jika yang lain memiliki komitmen kerja atau sedang sakit)

Kemudian kita mendapatkan cara dan varians berikut:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Jadi perkiraan normal akan sangat kasar dalam kasus ini, tetapi akan menyarankan bahwa lebih dari 7 orang akan sangat tidak mungkin (pada urutan 5%), dan 6 atau kurang akan terjadi kira-kira 75-80% dari waktu.

[Pendekatan yang lebih akurat adalah mensimulasikan proses, tetapi pada masalah lengkap daripada contoh pengurangan ini mungkin tidak diperlukan karena sudah ada begitu banyak lapisan perkiraan.]


Setelah Anda memiliki distribusi gabungan yang menggabungkan dependensi grup seperti itu, Anda mungkin ingin menerapkan sumber ketergantungan bersama secara keseluruhan (seperti cuaca buruk) - atau Anda mungkin ingin memastikan atau bahkan mengabaikan kemungkinan-kemungkinan seperti itu, tergantung pada keadaan .

Glen_b -Reinstate Monica
sumber
5
+1 untuk menyebutkan dependensi. Ini timbul karena alasan selain hubungan interpersonal, seperti cuaca dan kondisi perjalanan. Banyak dari mereka menginduksi korelasi positif - yang memperluas kisaran ketidakpastian. Jika perkiraan akan digunakan untuk menyediakan logistik (makanan, kursi, dan sebagainya), menilai variasi secara akurat sangat berharga. Meskipun dalam aplikasi pernikahan seseorang tidak dapat melakukan lebih dari membuat tebakan yang berpendidikan, memiliki pemahaman kualitatif tentang fenomena statistik ini dapat mengarah pada tebakan yang lebih baik.
whuber
@whuber Poin bagus tentang sumber ketergantungan lainnya, seperti cuaca. Dalam beberapa keadaan, hal-hal seperti itu dapat dengan mudah membanjiri efek yang saya sebutkan.
Glen_b -Reinstate Monica
Bagaimana saya bisa dengan mudah memperhitungkan ketergantungan akun? Sebagai contoh, jika saya tahu pasangan dengan dua anak, dan saya berharap orang tua memiliki peluang 50% untuk datang. Saya tahu mereka akan membawa anak-anak mereka jika mereka datang. Apakah menghemat atribut 50% untuk setiap orang, dan pada dasarnya berasumsi bahwa 2 orang akan datang?
Behacad
2
@Behacad: Jika Anda tahu ini soal semua-atau-tidak ada dengan kelompok tertentu, Anda bisa memperkirakan kemungkinan kelompok tersebut datang sebagai satu unit dan menimbang kelompok dengan jumlah individu di dalamnya. Saya setuju bahwa margin kesalahan akan baik untuk dimasukkan dalam perkiraan Anda juga.
Nick Stauner
Terima kasih. Saya memiliki meja kecil dengan persentase dan jumlah orang dengan persentase itu, tetapi saya tidak tahu apa yang harus saya lakukan sekarang. Apa yang harus saya tambahkan? Varian apa? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad
5

(Abaikan komentar saya sebelumnya tentang ini - saya baru sadar bahwa saya membingungkan harapan dengan sesuatu yang lain.) Karena pada dasarnya Anda mencoba untuk menemukan harapan dari jumlah orang yang muncul, Anda secara teoritis dapat menambahkan probabilitas setiap orang menunjukkan hingga melakukannya.

01

Namun, ini hanya memberi Anda nilai yang diharapkan - tanpa asumsi lebih lanjut akan tampak sulit untuk memperkirakan hal-hal seperti varians dari orang-orang yang muncul, terutama karena cukup adil untuk mengasumsikan bahwa orang A yang muncul belum tentu independen dari orang B yang muncul.

Selain itu, inilah artikel BBC yang agak relevan.


sumber
Terima kasih! Jadi hanya untuk mengonfirmasi, jika saya pikir 10 orang memiliki peluang 10% untuk datang, saya dapat menebak bahwa 1 orang akan datang, misalnya.
Behacad
Secara teori ya, tetapi tampaknya sulit untuk membangun sesuatu yang lebih berguna (misalnya interval kepercayaan) tanpa asumsi lebih lanjut tentang berbagai hal.
Terima kasih. Bagaimana saya bisa sampai pada interval kepercayaan?
Behacad
Bahwa saya tidak sepenuhnya yakin karena sejumlah alasan. (Saya mungkin harus menghabiskan lebih banyak waktu mencari beberapa hal untuk memberikan lebih banyak jawaban yang terperinci tentang hal itu.)
4

Untuk jumlah besar, 80% adalah yang Anda harapkan. Ini mungkin situasi di mana analisis terperinci yang Anda usulkan hanya menambah kesalahan pada perhitungan.
Sebagai contoh, apakah kehadiran potensial Marc benar-benar 1/3 dari Joseph? Dan apakah Joseph benar-benar 30%, atau mungkin 25%? Hal-hal terjadi ketika Anda mencapai jumlah besar yang hanya membuat 80% lebih valid daripada semua analisis ini. Saya baru saja kembali dari pernikahan. 550 diundang. 452 hadir. Untuk keperluan perencanaan aula dan mulai berbicara dengan katering, perkiraan awal 440 baik-baik saja.

Bolehkah saya menawarkan antrean dari roti bakar saya kepada pasangan? "Ingat, jika istrimu bahagia, tetapi kamu tidak bahagia, kamu masih jauh lebih bahagia daripada jika istrimu tidak bahagia, tetapi kamu bahagia."

JTP - Minta maaf kepada Monica
sumber
Terima kasih! Satu kekhawatiran adalah bahwa orang akan datang dari seluruh penjuru dan dari berbagai jarak. Beberapa cukup jauh, yang lain di ujung jalan.
Behacad
3
Angka ini mungkin tergantung budaya.
Juho Kokkala
@ Juho - mungkin itu. Saya di AS dan dalam contoh saya baru-baru ini, itu adalah pernikahan tujuan untuk sekitar setengah dari undangan, yaitu pernikahan di kota kelahiran pengantin wanita. Saya ingin tahu apa perbedaan budaya yang akan mempengaruhi jumlah pemilih, tetapi saya curiga Anda benar.
JTP - Minta maaf kepada Monica
4
Ini adalah contoh yang bagus dari penaksir yang ada dalam teori tetapi tampaknya tidak biasa dalam praktiknya (sampai Anda mencari hal semacam ini): mengingat set data apa pun , ia mengembalikan angka yang telah ditentukan (80% dalam kasus ini). Mudah untuk dihitung, sangat murah (biaya pengumpulan data dapat dikurangi menjadi nol) dan memiliki nol varians. Itu adalah Bayes (untuk atom sebelumnya) dan dapat diterima. Masih akan ada pertanyaan yang mengganggu tentang bias dan konsistensi yang bisa sulit untuk diatasi dan tidak akan hilang dengan menghindari "analisis terperinci."
whuber
2

Sebagai ahli statistik yang baru saja menikah, saya akan memberi tahu Anda bahwa JoeTaxpayer memiliki jawaban yang tepat. Angka 80% menurut saya sedikit tinggi, meskipun bisa akurat jika sebagian besar orang lokal (milik kami adalah pernikahan tujuan dan kami mendarat lebih dekat ke 65%).

Namun demikian, Anda mengasumsikan banyak variabilitas dalam probabilitas sebelumnya yang dihadiri orang, saya pikir lebih dari benar-benar ada. Dengan asumsi Anda tidak mengundang orang yang secara aktif tidak menyukai Anda, Anda harus mengasumsikan bahwa hampir semua orang akan datang untuk siapa itu sesuai kemampuan mereka dan mereka tidak memiliki konflik (dalam arti luas), tetapi setidaknya 10-20% AKAN memiliki sesuatu yang membuat mereka tidak hadir. Bagi mereka yang harus bepergian, itu menambah waktu dan uang yang dibutuhkan sehingga angka 30-35% wisatawan tidak akan hadir (tergantung jarak). Kalau tidak, jaga probabilitasnya tetap (bahkan jika orang tua Anda mengatakan "oh an-dan-begitu tidak akan terbang jauh-jauh ke Austin, kami hanya ingin mengundang mereka ..."). Jika Anda mengadakan resepsi yang menyenangkan, terutama dengan bilah terbuka, umumnya orang tidak akan melewatkannya kecuali mereka harus melakukannya.

Pokoknya, selamat menikah. Sekarang untuk kemungkinan bahwa Anda tetap menikah, ini selalu menjadi bacaan yang baik: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)

Mike Nute
sumber
1

Jumlahkan semua probabilitas, itulah perkiraan jumlah orang yang akan datang.

Anda memiliki i = 1..N peristiwa, masing-masing memiliki probabilitas Psaya. Jumlah orang yang diharapkan akan datangsaya1sayaPsayadimana 1saya - variabel indikator sama dengan satu jika seseorang muncul, dan nol sebaliknya.

Tentu saja, kami mengasumsikan bahwa seseorang datang atau tidak tidak bergantung pada kehadiran orang lain. Asumsi ini benar-benar salah. Pertimbangkan pasangan, mereka sangat berkorelasi.

Karena Anda tidak memiliki data tentang korelasi, yang terbaik yang dapat Anda lakukan adalah menangani pasangan sebagai satu kesatuan, yaitu 2×1sayaPsayadimana Psaya adalah probabilitas pasangan itu akan muncul.

Aksakal
sumber
1

Untuk pernikahan saya, saya membuat dua daftar - kemungkinan untuk menghadiri (80%) dan tidak mungkin untuk menghadiri (20%). Terlepas dari penilaian yang lebih halus untuk alasan apa pun, saya menugaskan semua orang diundang ke salah satu dari dua kelompok. Saya pergi oleh 2 orang. N = 1. Murni heuristik.

michaelcarniol
sumber
Bisakah aku bertanya? Apa% partisipasi terakhir?
JTP - Minta maaf ke Monica
72% menjawab ya, tapi saya lupa berapa hari pembatalan.
michaelcarniol
0

Saya perhatikan bahwa tidak ada yang menunjukkan bahwa Anda tidak perlu membagi dengan 100. Persentase Anda dapat dilihat sebagai bagian yang diharapkan dari seseorang untuk muncul, dengan pemahaman bahwa, seperti kucing Schrödinger, Anda tidak akan mendapatkan bagian dari seseorang hadir atau tidak hadir, tetapi status kehadiran setiap orang akan sepenuhnya diselesaikan pada saat acara.

Karena rentang persentase Anda berjalan dari 0% (tidak ada orang yang muncul) hingga 100% (semua orang muncul), dalam dua contoh Anda yang melibatkan 10 dan 20 orang, Anda menjumlahkan nilai yang diharapkan untuk porsi masing-masing orang yang muncul, dan mendapat nomor yang unitnya "orang".

Persamaan yang menonjol dalam jawaban hebat QuantIbex menunjukkan bahwa menjumlahkan persentase menghasilkan jumlah orang yang diharapkan pada acara tersebut, tidak ada divisi yang terlibat.

Travis Bemrose
sumber