Saya bertaruh dengan rekan kerja yang dari 50 pertandingan pingpong (pertama menang 21 poin, menang 2), saya akan memenangkan semua 50. Sejauh ini kami telah memainkan 15 pertandingan dan rata-rata saya menang 58% dari poin, ditambah saya sudah memenangkan semua game sejauh ini. Jadi kita bertanya-tanya apakah saya memiliki peluang 58% untuk memenangkan poin dan dia memiliki peluang 42% untuk memenangkan poin, berapa persen peluang saya untuk memenangkan permainan? Apakah ada rumus yang bisa kita pasang selisih% peluang?
Kami telah menelusuri seluruh Google dan bahkan bertanya kepada para ilmuwan data di perusahaan kami, tetapi tidak dapat menemukan jawaban langsung.
Sunting: Wow, saya terpesona oleh ketelitian tanggapan. Terima kasih banyak !!! Jika ada orang yang ingin tahu, saya memiliki informasi terbaru tentang bagaimana taruhan saya: Saya sekarang telah memenangkan 18 dari 50 pertandingan, jadi saya harus memenangkan 32 pertandingan lagi. Saya telah memenangkan 58,7% dari semua poin dan oleh karena itu lawan saya telah memenangkan 41,3% poin. Simpangan baku untuk lawan saya adalah 3,52, skor rata-rata 14,83, dan skor mediannya adalah 15,50. Di bawah ini adalah tangkapan layar dari skor setiap pertandingan sejauh ini. Saya dapat terus memperbarui seiring berjalannya waktu, jika orang tertarik.
Sunting # 2 : Sayangnya kami hanya dapat memainkan beberapa game lagi, berikut hasilnya. Saya hanya akan terus mengganti gambar jadi saya tidak punya banyak screenshot dari skor.
Pembaruan Terakhir : Saya akhirnya kalah dari rekan kerja saya di game # 28. Dia mengalahkan saya 21-13. Terima kasih atas semua bantuan Anda!
sumber
Jawaban:
Analisis ini diperumit oleh prospek bahwa permainan akan menjadi "lembur" untuk menang dengan selisih setidaknya dua poin. (Kalau tidak, akan sesederhana solusi yang ditampilkan di https://stats.stackexchange.com/a/327015/919 .) Saya akan menunjukkan cara memvisualisasikan masalah dan menggunakannya untuk memecahnya menjadi kontribusi yang siap dihitung untuk jawabannya. Hasilnya, meski agak berantakan, masih bisa dikelola. Sebuah simulasi menunjukkan kebenarannya.
Biarkan menjadi probabilitas Anda untuk memenangkan poin.p Asumsikan semua poin independen. Peluang Anda memenangkan permainan dapat dipecah menjadi peristiwa (tidak tumpang tindih) sesuai dengan berapa banyak poin yang dimiliki lawan Anda pada akhirnya dengan asumsi Anda tidak masuk ke lembur ( ) atau Anda lembur. . Dalam kasus terakhir jelas (atau akan menjadi) jelas bahwa pada tahap tertentu skornya adalah 20-20.0,1,…,19
Ada visualisasi yang bagus. Biarkan skor selama pertandingan diplot sebagai poin mana adalah skor Anda dan adalah skor lawan Anda. Saat permainan dibuka, skor bergerak di sepanjang kisi integer di kuadran pertama yang dimulai dengan , menciptakan jalur permainan . Itu berakhir pertama kali salah satu dari Anda mencetak setidaknya dan memiliki margin minimal . Poin kemenangan seperti itu membentuk dua set poin, "batas penyerap" dari proses ini, di mana jalur permainan harus diakhiri.x y ( 0 , 0 ) 21 2(x,y) x y (0,0) 21 2
Angka ini menunjukkan bagian dari batas yang menyerap (itu meluas tak terbatas ke atas dan ke kanan) bersama dengan jalur permainan yang masuk ke lembur (sayangnya, kerugian untuk Anda).
Mari berhitung. Jumlah cara permainan dapat berakhir dengan poin untuk lawan Anda adalah jumlah jalur yang berbeda dalam kisi integer dari skor dimulai dari skor awal dan berakhir pada skor kedua dari belakang . Jalur seperti itu ditentukan oleh poin dalam permainan yang Anda menangkan. Karena itu mereka sesuai dengan himpunan bagian ukuran dari angka , dan ada dari mereka. Karena di setiap jalur Anda menang poin (dengan probabilitas independen setiap kali, menghitung poin terakhir) dan lawan Anda menang( x , y ) ( 0 , 0 ) ( 20 , y ) 20 + y 20 1 , 2 , … , 20 + yy (x,y) (0,0) (20,y) 20+y 20 1,2,…,20+y (20+y20) 21 p y poin (dengan probabilitas independen setiap kali), jalur yang terkait dengan akun untuk peluang total1−p y
Demikian pula, ada cara untuk sampai pada mewakili dasi 20-20. Dalam situasi ini Anda tidak memiliki kemenangan yang pasti. Kami dapat menghitung peluang kemenangan Anda dengan mengadopsi konvensi umum: lupakan berapa banyak poin yang telah dicetak sejauh ini dan mulailah melacak perbedaan poin. Gim ini berada pada diferensial dan akan berakhir saat pertama mencapai atau , harus melewati sepanjang jalan. Biarkan menjadi peluang Anda menang ketika diferensial adalah .(20+2020) (20,20) 0 +2 −2 ±1 g(i) i∈{−1,0,1}
Karena peluang Anda untuk menang dalam situasi apa pun adalah , kami memilikinyap
Solusi unik untuk sistem persamaan linear ini untuk vektor menyiratkan(g(−1),g(0),g(1))
Karenanya, ini adalah kesempatan Anda untuk menang setelah tercapai (yang terjadi dengan peluang ).(20,20) (20+2020)p20(1−p)20
Akibatnya kesempatan Anda untuk menang adalah jumlah dari semua kemungkinan yang terpisah ini, sama dengan
Hal-hal di dalam tanda kurung di sebelah kanan adalah polinomial dalam . (Kelihatannya derajatnya , tetapi syarat-syarat utama semuanya dibatalkan: derajatnya )21 20p 21 20
Ketika , peluang untuk menang dekat dengan0,855913992.p=0.58 0.855913992.
Anda seharusnya tidak mengalami kesulitan untuk menggeneralisasikan analisis ini ke permainan yang berakhir dengan jumlah poin berapa pun. Ketika margin yang dibutuhkan lebih besar dari hasilnya menjadi lebih rumit tetapi sama mudahnya.2
Kebetulan , dengan peluang menang ini, Anda memiliki untuk memenangkan pertandingan pertama . Itu tidak bertentangan dengan apa yang Anda laporkan, yang mungkin mendorong kami untuk terus mengandaikan bahwa setiap titik independen. Dengan demikian kami akan memproyeksikan bahwa Anda memiliki peluang15(0.8559…)15≈9.7% 15
memenangkan semua pertandingan yang tersisa , dengan asumsi mereka melanjutkan sesuai dengan semua asumsi ini. Kedengarannya itu bukan taruhan yang baik untuk dilakukan kecuali jika bayarannya besar!35
Saya suka memeriksa pekerjaan seperti ini dengan simulasi cepat. Berikut adalah
R
kode untuk menghasilkan puluhan ribu game dalam sedetik. Diasumsikan permainan akan berakhir dalam 126 poin (sangat sedikit permainan yang perlu dilanjutkan selama itu, sehingga asumsi ini tidak memiliki efek material pada hasil).Ketika saya menjalankan ini, Anda menang dalam 8.570 kasus dari 10.000 iterasi. Skor-Z (dengan kira-kira distribusi normal) dapat dihitung untuk menguji hasil seperti:
Nilai dalam simulasi ini sangat konsisten dengan perhitungan teoritis sebelumnya.0.31
Lampiran 1
Mengingat pembaruan untuk pertanyaan, yang berisi daftar hasil dari 18 pertandingan pertama, berikut adalah rekonstruksi jalur permainan yang konsisten dengan data ini. Anda dapat melihat bahwa dua atau tiga pertandingan hampir saja kalah. (Jalur apa pun yang berakhir pada kotak abu-abu terang adalah kerugian untuk Anda.)
Potensi kegunaan gambar ini termasuk mengamati:
Jalur berkonsentrasi di sekitar kemiringan yang diberikan oleh rasio 267: 380 dari total skor, sama dengan sekitar 58,7%.
Penyebaran jalur di sekitar kemiringan tersebut menunjukkan variasi yang diharapkan saat titik independen.
Jika titik dibuat dalam garis belang, maka jalur individu cenderung memiliki peregangan vertikal dan horizontal yang panjang.
Dalam gim yang serupa yang lebih panjang, perkirakan untuk melihat jalur yang cenderung tetap berada dalam kisaran berwarna, tetapi juga perkirakan beberapa akan melampaui itu.
Prospek satu atau dua permainan yang jalurnya umumnya terletak di atas spread ini menunjukkan kemungkinan bahwa lawan Anda akhirnya akan memenangkan permainan, mungkin lebih cepat daripada nanti.
Lampiran 2
Kode untuk membuat gambar diminta. Ini dia (dibersihkan untuk menghasilkan grafik yang sedikit lebih bagus).
sumber
r code
pengungkapan implementasi? Terimakasih banyak.Menggunakan distribusi binomial dan mengasumsikan setiap titik independen:
Peluang pemain mencapai pada poin pertama (dengan memperhitungkan fakta bahwa poin terakhir harus dimenangkan) adalah58% 21 40 ∑40n=21(n−120)0.58210.42n−21 =∑40k=21(40k)0.58k0.4240−k ≈0.80695
Probabilitas pemain mendapat dari poin yang dimainkan adalah binomial . Dengan syarat bahwa, probabilitas pemain kemudian menang dengan margin dua poin adalah58% 20 40 (4020)0.58200.4220≈0.074635 58% 0.5820.582+0.422≈0.656006
Jadi probabilitas keseluruhan pemain menang adalah sekitar58% 0.80695+0.074635×0.656006 ≈0.8559
Probabilitas pemain memenangkan pertandingan pertama adalah sekitar yang tidak mungkin. Probabilitas pemain memenangkan pertandingan terakhir adalah sekitar yang sangat tidak mungkin.58% 15 0.8555915≈0.0969 58% 35 0.8555935≈0.0043
sumber
Saya pergi dengan jawaban komputasi. Berikut adalah fungsi R yang mensimulasikan permainan ping-pong di mana pemenang harus menang dengan 2. Satu-satunya argumen adalah probabilitas bahwa Anda memenangkan poin. Ini akan mengembalikan skor akhir dari game itu:
Pertama mari kita pastikan itu bekerja dengan mensimulasikan 10.000 game di mana Anda memiliki peluang 50% untuk memenangkan setiap poin. Kami harus memperhatikan bahwa persentase kemenangan Anda adalah sekitar 50%:
Ini mengembalikan 0,4955, tentang apa yang kita harapkan. Jadi mari kita pasang 58% Anda:
Ini mengembalikan 0,8606. Jadi, Anda memiliki peluang 86,06% untuk memenangkan satu pertandingan.
Kami sekarang dapat mensimulasikan 35 batch game dan melihat berapa kali Anda akan memenangkan semua 35:
Ini mengembalikan 0,0037, yang berarti Anda memiliki peluang 0,37% untuk memenangkan 35 pertandingan berikutnya. Ini mengasumsikan bahwa semua game dan semua poin independen satu sama lain. Anda dapat memprogram itu secara eksplisit ke dalam fungsi di atas, jika Anda mau.
Catatan: Saya melakukan ini dengan cepat. Saya yakin ada cara pemrograman yang lebih efisien secara komputasi.
sumber
pbetterwins <- pbinom(19,40,0.42) + dbinom(20,40,0.42) * 0.58^2/(0.58^2+0.42^2); pbetterwins; pbetterwins^35
untuk perhitungan menggunakan distribusi binomial. Cukup dekat dengan simulasi AndaHaruskah kita berasumsi bahwa peluang 58% untuk menang sudah pasti dan poinnya independen?
Saya percaya bahwa jawaban Whuber adalah yang baik , dan ditulis dan dijelaskan dengan indah, ketika pertimbangannya adalah bahwa setiap poin independen dari yang berikutnya . Namun saya percaya bahwa, dalam praktiknya itu hanya titik awal yang menarik (teoretis / ideal). Saya membayangkan bahwa dalam kenyataannya poin tidak independen satu sama lain, dan ini mungkin membuatnya lebih atau kurang mungkin bahwa lawan rekan kerja Anda menang setidaknya sekali dari 50.
Pada awalnya saya membayangkan bahwa ketergantungan poin akan menjadi proses acak , yaitu tidak dikendalikan oleh para pemain (misalnya ketika seseorang menang atau kalah bermain berbeda), dan ini harus membuat dispersi yang lebih besar dari hasil yang menguntungkan pemain yang lebih kecil untuk mendapatkan satu poin ini dari lima puluh.
Namun pemikiran kedua mungkin menyarankan yang sebaliknya : Fakta bahwa Anda telah "mencapai" sesuatu dengan peluang 9,7% dapat memberikan beberapa manfaat (tetapi hanya sedikit), dari sudut pandang Bayesian, ke ide-ide tentang mekanisme yang mendukung Anda. menangkan lebih dari 85% probabilitas untuk memenangkan permainan (atau setidaknya membuatnya lebih kecil kemungkinannya bahwa lawan Anda memiliki probabilitas jauh lebih tinggi dari 15% seperti yang diperdebatkan dalam dua paragraf sebelumnya). Misalnya, bisa jadi Anda mendapat skor lebih baik ketika posisi Anda kurang bagus (tidak aneh bagi orang yang mencetak jauh lebih berbeda pada poin pertandingan, mendukung atau menentang, daripada pada poin reguler). Anda dapat meningkatkan perkiraan 85% dengan memperhitungkan dinamika ini dan mungkin Anda memiliki probabilitas lebih dari 85% untuk memenangkan permainan.
Bagaimanapun, mungkin sangat salah menggunakan statistik poin sederhana ini untuk memberikan jawaban. Ya, Anda bisa melakukannya, tetapi itu tidak benar karena premis (independensi poin) tidak selalu benar dan sangat mempengaruhi jawabannya . Statistik 42/58 adalah informasi yang lebih banyak tetapi kami tidak tahu bagaimana menggunakannya (kebenaran model) dan menggunakan informasi tersebut dapat memberikan jawaban dengan presisi tinggi yang sebenarnya tidak dimiliki.
Contoh
Contoh: model yang sama masuk akal dengan hasil yang sama sekali berbeda
Jadi pertanyaan hipotetis (dengan asumsi poin independen dan diketahui, teoritis, probabilitas untuk poin ini) dengan sendirinya menarik dan dapat dijawab, Tetapi hanya untuk menjadi menjengkelkan dan skeptis / sinis; jawaban untuk kasus hipotetis tidak banyak berhubungan dengan masalah mendasar / awal Anda, dan mungkin mengapa ahli statistik / data-ilmuwan di perusahaan Anda enggan memberikan jawaban langsung.
Hanya untuk memberikan contoh alternatif (tidak lebih baik dari itu) yang memberikan pernyataan (kontra) yang membingungkan 'T: berapa probabilitas untuk memenangkan semua dari total 50 pertandingan jika saya sudah memenangkan 15?' Jika kami tidak mulai berpikir bahwa 'skor poin 42/58 relevan atau memberi kami prediksi yang lebih baik' maka kami akan mulai membuat prediksi probabilitas Anda untuk memenangkan pertandingan dan prediksi untuk memenangkan 35 pertandingan lainnya hanya berdasarkan kemenangan Anda sebelumnya. 15 pertandingan:
yang berarti bahwa saya tidak akan terlalu pesimis seperti prediksi langsung 0,432% Fakta bahwa Anda telah memenangkan 15 pertandingan harus meningkatkan kemungkinan Anda memenangkan 35 pertandingan berikutnya.
Catatan berdasarkan data baru
Berdasarkan data Anda untuk 18 game saya mencoba memasang model beta-binomial. Memvariasikan dan dan menghitung probabilitas untuk mendapatkan skor i, 21 (via i, 20) atau skor 20,20 dan kemudian menjumlahkan log mereka ke skor log-likelihood.β = ( 1 - μ ) να=μν β=(1−μ)ν
Hal ini menunjukkan bahwa sangat tinggi parameter (kecil dispersi dalam distribusi beta yang mendasari) memiliki kemungkinan yang lebih tinggi dan dengan demikian mungkin ada sedikit over-dispersi. Itu berarti bahwa data tidak menyarankan bahwa lebih baik menggunakan parameter variabel untuk kemungkinan Anda memenangkan poin, daripada peluang tetap 58% Anda untuk menang. Data baru ini memberikan dukungan tambahan untuk analisis Whuber, yang mengasumsikan skor berdasarkan distribusi binomial. Tapi tentu saja, ini masih mengasumsikan bahwa model itu statis dan juga bahwa Anda dan rekan kerja Anda berperilaku sesuai dengan model acak (di mana setiap permainan dan titik independen).ν
Estimasi kemungkinan maksimum untuk parameter distribusi beta sebagai ganti peluang menang 58% tetap:
T: bagaimana cara saya membaca grafik "LogLikelihood for parameters mu and nu"?
SEBUAH:
kode / perhitungan untuk grafik 1
kode / perhitungan untuk grafik 2
sumber
Banyak usaha yang bisa dihabiskan untuk model yang sempurna. Namun terkadang model yang buruk lebih baik. Dan tidak ada yang mengatakan model yang buruk seperti teorema batas pusat - semuanya adalah kurva normal.
Kami akan mengabaikan "lembur". Kami akan memodelkan jumlah poin individu sebagai kurva normal. Kami akan memodelkan bermain 38 putaran dan siapa pun yang menang poin terbanyak, daripada yang pertama ke 20. Ini adalah permainan yang sangat mirip!
Dan, secara membabi buta, saya akan mengklaim kita mendekati jawaban yang benar.
Biarkan menjadi distribusi suatu titik. memiliki nilai 1 ketika Anda mendapatkan poin, dan 0 ketika Anda tidak.X X
Jadi = ~ dan = = ~ .E(X) 0.58 Var(X) E(X)∗(1−E(X)) 0.24
Jika adalah poin independen, maka adalah poin yang Anda dapatkan setelah bermain 38 putaran.Xi ∑38i=1Xi
dan = = ~SD(∑38i=1Xi) 38∗Var(X))−−−−−−−−−−−√ 3.02
Dalam model kasar kami, kami kehilangan jika dan menang jika .∑ 38 i = 1 X i > 19∑38i=1Xi<19 ∑38i=1Xi>19
1.0115.62%22.04−193.02 adalah standar deviasi dari rata-rata, yang menghasilkan peluang kegagalan setelah berkonsultasi dengan grafik skor z .1.01 15.62%
Jika kita bandingkan dengan jawaban yang lebih teliti, ini sekitar dari nilai yang benar.1%
Anda biasanya akan lebih baik memeriksa keandalan peluang kemenangan daripada model yang lebih ketat yang mengasumsikan peluang dan memodelkannya dengan sempurna.58 %58% 58%
sumber
Berdasarkan simulasi, sepertinya probabilitas memenangkan setiap game adalah sekitar 85,5%.
Probabilitas menang dengan tepat 2 (yaitu bagaimana saya membaca judul, tetapi tampaknya tidak seperti yang Anda tanyakan) adalah sekitar 10,1%.
Jalankan kode di bawah ini.
sumber
dbinom(20,40,0.58)*0.58^2/(1-2*0.58+2*0.58^2)+dbinom(20,39,0.58)*0.58
memberikan 10,04%