Saya merencanakan pernikahan saya. Saya ingin memperkirakan berapa banyak orang yang akan datang ke pernikahan saya. Saya telah membuat daftar orang dan kemungkinan mereka akan hadir dalam persentase. Sebagai contoh
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
Saya memiliki daftar sekitar 230 orang dengan persentase. Bagaimana saya bisa memperkirakan berapa banyak orang yang akan menghadiri pernikahan saya? Bisakah saya menjumlahkan persentase dan membaginya dengan 100? Misalnya, jika saya mengundang 10 orang dengan masing-masing peluang 10% untuk datang, saya dapat mengharapkan 1 orang? Jika saya mengundang 20 orang dengan peluang 50% untuk datang, bisakah saya mengharapkan 10 orang?
PEMBARUAN: 140 orang datang ke pernikahan saya :). Menggunakan teknik yang dijelaskan di bawah ini saya memperkirakan sekitar 150. Tidak terlalu buruk!
sumber
Jawaban:
Dengan asumsi bahwa keputusan orang yang diundang untuk datang ke pernikahan adalah independen, jumlah tamu yang akan datang ke pernikahan dapat dimodelkan sebagai jumlah variabel acak Bernoulli yang belum tentu probabilitas keberhasilan yang identik. Ini sesuai dengan distribusi binomial Poisson .
Biarkan menjadi variabel acak yang sesuai dengan jumlah total orang yang akan datang ke pernikahan Anda dari N orang yang diundang. Jumlah tersebut diharapkan peserta memang jumlah individu 'show-up '' probabilitas p i , yaitu E ( X ) = N Σ i =X N halsaya
Derivasi interval kepercayaan tidak mudah mengingat bentukfungsi massa probabilitas. Namun, mereka mudah diperkirakan dengansimulasiMonte Carlo.
Gambar berikut ini menunjukkan contoh distribusi jumlah peserta ke pernikahan berdasarkan pada 10.000 skenario simulasi (kanan) menggunakan beberapa probabilitas palsu untuk 230 orang yang diundang (kiri). Kode R yang digunakan untuk menjalankan simulasi ini ditunjukkan di bawah ini; ini memberikan perkiraan interval kepercayaan.
sumber
j
, saya menghasilkan jumlah "show-up" untuk masing-masing dari 20 kelompok probabilitas menggunakan distribusi binomial dan probabilitas untuk muncul dari kelompok itu.Seperti yang telah ditunjukkan, harapan hanya menambahkan.
Namun, mengetahui harapan itu tidak banyak berguna, Anda juga perlu merasakan kemungkinan variasi di sekitarnya.
Ada tiga hal yang perlu Anda perhatikan:
variasi pada individu di sekitar harapan mereka (seseorang dengan peluang 60% untuk datang tidak benar-benar mencapai harapan mereka; mereka selalu berada di atas atau di bawahnya)
ketergantungan antar orang. Pasangan yang mungkin sama-sama datang akan cenderung hadir atau tidak. Anak-anak kecil tidak akan hadir tanpa orang tua mereka. Dalam beberapa kasus, beberapa orang mungkin menghindari datang jika mereka tahu orang lain akan ada di sana.
kesalahan dalam estimasi probabilitas. Probabilitas itu hanya dugaan; Anda mungkin ingin mempertimbangkan efek tebakan yang agak berbeda (mungkin penilaian orang lain tentang angka-angka itu)
Yang pertama setuju dengan perhitungan, baik dengan perkiraan normal atau melalui simulasi. Yang kedua dapat disimulasikan dengan berbagai asumsi, baik khusus untuk orang-orang, atau dengan mempertimbangkan distribusi ketergantungan. (Item ketiga lebih sulit.)
Diedit untuk menjawab pertanyaan tindak lanjut dalam komentar:
Jika saya memahami ungkapan Anda dengan benar, untuk keluarga dengan 4 orang, Anda memiliki peluang 50% masing-masing dari 4 orang atau tidak ada yang datang. Itu angka yang diharapkan dari 2, tentu saja, tetapi Anda juga ingin memiliki gagasan tentang variabilitas di sekitar ekspektasi, dalam hal ini Anda mungkin ingin mempertahankan situasi aktual 50% dari 0/50% dari 4.
Jika Anda dapat mempartisi semua orang menjadi kelompok-kelompok independen, perkiraan pertama yang baik (dengan banyak kelompok seperti itu) akan kemudian menambahkan cara dan varians di seluruh kelompok independen dan kemudian memperlakukan jumlah tersebut seperti biasa (mungkin dengan koreksi kontinuitas). Pendekatan yang lebih akurat adalah mensimulasikan proses atau menghitung distribusi secara tepat melalui konvolusi numerik; sementara kedua pendekatan itu mudah, ini adalah tingkat presisi yang tidak perlu untuk aplikasi khusus ini, karena sudah ada begitu banyak lapisan perkiraan - seperti diberi tahu dimensi ruangan ke kaki terdekat dan kemudian menghitung berapa banyak cat yang Anda perlukan ke mililiter terdekat - ketepatan tambahan tidak ada gunanya.
Jadi bayangkan (untuk kesederhanaan) kami memiliki empat kelompok:
1) grup A (1 individu) - 70% kemungkinan hadir
2) grup B (1 individu) - 60% kemungkinan hadir
3) grup C (keluarga 4) - 0: 0,5 4: 0,5 (jika ada yang tinggal di rumah, tidak ada yang akan datang)
4) kelompok D (pasangan 2) - 0: 0,4 1: 0,1 2: 0,5 (yaitu peluang 50% dari keduanya, ditambah peluang 10% tepat satu akan datang, misalnya jika yang lain memiliki komitmen kerja atau sedang sakit)
Kemudian kita mendapatkan cara dan varians berikut:
Jadi perkiraan normal akan sangat kasar dalam kasus ini, tetapi akan menyarankan bahwa lebih dari 7 orang akan sangat tidak mungkin (pada urutan 5%), dan 6 atau kurang akan terjadi kira-kira 75-80% dari waktu.
[Pendekatan yang lebih akurat adalah mensimulasikan proses, tetapi pada masalah lengkap daripada contoh pengurangan ini mungkin tidak diperlukan karena sudah ada begitu banyak lapisan perkiraan.]
Setelah Anda memiliki distribusi gabungan yang menggabungkan dependensi grup seperti itu, Anda mungkin ingin menerapkan sumber ketergantungan bersama secara keseluruhan (seperti cuaca buruk) - atau Anda mungkin ingin memastikan atau bahkan mengabaikan kemungkinan-kemungkinan seperti itu, tergantung pada keadaan .
sumber
(Abaikan komentar saya sebelumnya tentang ini - saya baru sadar bahwa saya membingungkan harapan dengan sesuatu yang lain.) Karena pada dasarnya Anda mencoba untuk menemukan harapan dari jumlah orang yang muncul, Anda secara teoritis dapat menambahkan probabilitas setiap orang menunjukkan hingga melakukannya.
Namun, ini hanya memberi Anda nilai yang diharapkan - tanpa asumsi lebih lanjut akan tampak sulit untuk memperkirakan hal-hal seperti varians dari orang-orang yang muncul, terutama karena cukup adil untuk mengasumsikan bahwa orang A yang muncul belum tentu independen dari orang B yang muncul.
Selain itu, inilah artikel BBC yang agak relevan.
sumber
Untuk jumlah besar, 80% adalah yang Anda harapkan. Ini mungkin situasi di mana analisis terperinci yang Anda usulkan hanya menambah kesalahan pada perhitungan.
Sebagai contoh, apakah kehadiran potensial Marc benar-benar 1/3 dari Joseph? Dan apakah Joseph benar-benar 30%, atau mungkin 25%? Hal-hal terjadi ketika Anda mencapai jumlah besar yang hanya membuat 80% lebih valid daripada semua analisis ini. Saya baru saja kembali dari pernikahan. 550 diundang. 452 hadir. Untuk keperluan perencanaan aula dan mulai berbicara dengan katering, perkiraan awal 440 baik-baik saja.
Bolehkah saya menawarkan antrean dari roti bakar saya kepada pasangan? "Ingat, jika istrimu bahagia, tetapi kamu tidak bahagia, kamu masih jauh lebih bahagia daripada jika istrimu tidak bahagia, tetapi kamu bahagia."
sumber
Sebagai ahli statistik yang baru saja menikah, saya akan memberi tahu Anda bahwa JoeTaxpayer memiliki jawaban yang tepat. Angka 80% menurut saya sedikit tinggi, meskipun bisa akurat jika sebagian besar orang lokal (milik kami adalah pernikahan tujuan dan kami mendarat lebih dekat ke 65%).
Namun demikian, Anda mengasumsikan banyak variabilitas dalam probabilitas sebelumnya yang dihadiri orang, saya pikir lebih dari benar-benar ada. Dengan asumsi Anda tidak mengundang orang yang secara aktif tidak menyukai Anda, Anda harus mengasumsikan bahwa hampir semua orang akan datang untuk siapa itu sesuai kemampuan mereka dan mereka tidak memiliki konflik (dalam arti luas), tetapi setidaknya 10-20% AKAN memiliki sesuatu yang membuat mereka tidak hadir. Bagi mereka yang harus bepergian, itu menambah waktu dan uang yang dibutuhkan sehingga angka 30-35% wisatawan tidak akan hadir (tergantung jarak). Kalau tidak, jaga probabilitasnya tetap (bahkan jika orang tua Anda mengatakan "oh an-dan-begitu tidak akan terbang jauh-jauh ke Austin, kami hanya ingin mengundang mereka ..."). Jika Anda mengadakan resepsi yang menyenangkan, terutama dengan bilah terbuka, umumnya orang tidak akan melewatkannya kecuali mereka harus melakukannya.
Pokoknya, selamat menikah. Sekarang untuk kemungkinan bahwa Anda tetap menikah, ini selalu menjadi bacaan yang baik: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
sumber
Jumlahkan semua probabilitas, itulah perkiraan jumlah orang yang akan datang.
Anda memiliki i = 1..N peristiwa, masing-masing memiliki probabilitasPsaya . Jumlah orang yang diharapkan akan datang∑saya1sayaPsaya dimana 1saya - variabel indikator sama dengan satu jika seseorang muncul, dan nol sebaliknya.
Tentu saja, kami mengasumsikan bahwa seseorang datang atau tidak tidak bergantung pada kehadiran orang lain. Asumsi ini benar-benar salah. Pertimbangkan pasangan, mereka sangat berkorelasi.
Karena Anda tidak memiliki data tentang korelasi, yang terbaik yang dapat Anda lakukan adalah menangani pasangan sebagai satu kesatuan, yaitu2 × 1sayaPsaya dimana Psaya adalah probabilitas pasangan itu akan muncul.
sumber
Untuk pernikahan saya, saya membuat dua daftar - kemungkinan untuk menghadiri (80%) dan tidak mungkin untuk menghadiri (20%). Terlepas dari penilaian yang lebih halus untuk alasan apa pun, saya menugaskan semua orang diundang ke salah satu dari dua kelompok. Saya pergi oleh 2 orang. N = 1. Murni heuristik.
sumber
Saya perhatikan bahwa tidak ada yang menunjukkan bahwa Anda tidak perlu membagi dengan 100. Persentase Anda dapat dilihat sebagai bagian yang diharapkan dari seseorang untuk muncul, dengan pemahaman bahwa, seperti kucing Schrödinger, Anda tidak akan mendapatkan bagian dari seseorang hadir atau tidak hadir, tetapi status kehadiran setiap orang akan sepenuhnya diselesaikan pada saat acara.
Karena rentang persentase Anda berjalan dari 0% (tidak ada orang yang muncul) hingga 100% (semua orang muncul), dalam dua contoh Anda yang melibatkan 10 dan 20 orang, Anda menjumlahkan nilai yang diharapkan untuk porsi masing-masing orang yang muncul, dan mendapat nomor yang unitnya "orang".
Persamaan yang menonjol dalam jawaban hebat QuantIbex menunjukkan bahwa menjumlahkan persentase menghasilkan jumlah orang yang diharapkan pada acara tersebut, tidak ada divisi yang terlibat.
sumber