Saya memiliki satu set data yang merinci banyak game kriket (beberapa ribu). Dalam kriket "bowler" berulang kali melempar bola pada suksesi "batsmen". Bowler sedang mencoba untuk mendapatkan batsman "keluar". Dalam hal ini sangat mirip dengan pitcher dan batter di baseball.
Jika saya mengambil seluruh dataset dan membagi jumlah total bola yang membuat batsman keluar dengan jumlah total bola bowled, saya dapat melihat bahwa saya akan memiliki kemungkinan rata-rata seorang bowler mengeluarkan batsman - itu akan menjadi sekitar 0,03 ( semoga saya tidak salah?)
Apa yang saya tertarik adalah apa yang bisa saya lakukan untuk mencoba dan menghitung probabilitas batsman tertentu yang dicoret oleh bowler tertentu pada bola berikutnya.
Dataset cukup besar sehingga setiap bowler yang diberikan akan memagari ribuan bola ke berbagai batsmen. Jadi saya percaya bahwa saya hanya bisa membagi jumlah belokan yang dicapai oleh pemain bola dengan jumlah bola yang dia lewati untuk menghitung probabilitas baru bagi pemain bowler tertentu yang keluar dari bola berikutnya.
Masalah saya adalah dataset tidak cukup besar untuk menjamin bahwa bowler yang diberikan telah bowled sejumlah bola signifikan secara statistik pada setiap batsmen yang diberikan. Jadi, jika saya tertarik untuk menghitung kemungkinan keluar untuk bowler tertentu menghadapi batsmen tertentu, saya tidak berpikir ini tidak dapat dilakukan dengan cara sederhana yang sama.
Pertanyaan saya adalah apakah pendekatan berikut ini valid:
Di seluruh dataset kemungkinan bola keluar adalah 0,03.
Jika saya menghitung bahwa rata-rata bowler A memiliki kemungkinan untuk keluar dari 0,06 (yaitu dua kali lebih mungkin dari bowler rata-rata),
dan rata-rata batsman B memiliki kemungkinan untuk keluar dari 0,01 (sepertiga kemungkinan sebagai rata-rata batsmen),
apakah valid untuk mengatakan probabilitas bahwa batsman tertentu keluar pada bola di sebelah bowler spesifik akan menjadi 0,06 * (0,01 / 0,03) = 0,02?
sumber
Jawaban:
Sayangnya, ini mungkin sudah tidak persis apa yang Anda cari.
Misalkan kita punya bowler tunggal, dan dua batsmen: Don Bradman dan saya. (Saya tahu sangat sedikit tentang kriket, jadi jika saya melakukan sesuatu di sini, beri tahu saya.) Permainannya seperti:
Dalam hal ini, ada empat out dari 200 mangkuk, sehingga probabilitas marginal dari seorang bowler mengeluarkan batsman diperkirakan 4/200 = 2%. Tapi sungguh, probabilitas Don untuk keluar lebih seperti 1%, sedangkan saya 100%. Jadi, jika Anda memilih batsman dan bowler secara acak, probabilitas bahwa bowler ini mengeluarkan batsman ini kali ini lebih seperti (50% kemungkinan Anda memilih Don) * (1% peluang dia keluar) + (50% peluang Anda memilih saya) * (100% peluang saya keluar) = 50,05%. Tetapi jika Anda memilih pitch secara acak, maka peluangnya 2% untuk keluar. Jadi, Anda perlu berpikir hati-hati tentang model pengambilan sampel mana yang Anda pikirkan.
Bagaimanapun, proposal Anda tidak gila. Lebih simbolis, biarkan menjadi bowler dan m batsman; biarkan f ( b , m ) adalah probabilitas bahwa b mendapat m keluar. Lalu Anda mengatakan:b m f(b,m) b m
Ini memang memiliki sifat yang diinginkan yaitu:
Tentu saja data Anda tidak akan terlihat seburuk ini, tetapi tergantung pada struktur liga atau apa pun, mungkin ada beberapa elemen dari masalah itu.
Anda dapat membuat model probabilitas seperti, katakan:
sumber
Anda tidak dapat menyimpulkan probabilitas yang benar bahwa B akan keluar mengingat A adalah bowler jika A dan B tidak pernah bertemu di lapangan hanya berdasarkan rata-rata mereka dengan pemain lain .
sumber