Memperkirakan probabilitas keberhasilan, diberikan referensi populasi

11

Misalkan Anda memiliki situasi berikut:

Anda mengamati 1000 pemain bowling, yang masing-masing memainkan sejumlah kecil permainan (katakan 1 hingga 20). Anda mencatat persentase pukulan untuk masing-masing pemain di atas jumlah permainan yang dimainkan masing-masing pemain.

Seorang pemain bowling baru datang dan memainkan 10 pertandingan dan mendapat 3 serangan.

Distribusi jumlah serangan untuk pemain mana pun dianggap binomial.

Saya ingin memperkirakan probabilitas kesuksesan "sejati" untuk pemain itu.

Harap perhatikan hal-hal berikut:

  1. Ini bukan situasi nyata atau masalah sekolah, hanya masalah pemikiran sendiri.
  2. Saya seorang siswa dengan sedikit pendidikan statistik daripada kursus Stats 101. Saya tahu sedikit tentang kesimpulan seperti estimasi kemungkinan maksimum ... Jadi jangan ragu untuk memberi tahu saya area dalam statistik yang harus saya baca.
  3. Masalah saya mungkin kurang informasi, atau jika itu akan bermanfaat untuk, katakanlah, distribusi probabilitas keberhasilan menjadi mendekati normal, tolong katakan padaku begitu.

Terima kasih banyak

Uwat
sumber
Menurut Anda apa hubungan antara probabilitas pemain ini dan probabilitas masing-masing dari 1000 pemain lainnya? Dengan kata lain, mengapa kita mempertimbangkan 1000 lainnya sama sekali dalam memperkirakan masalah pemain ini?
rolando2
1
Saya berasumsi bahwa persentase strike sejati pemain pada dasarnya adalah realisasi dari distribusi persentase strike yang sama dengan 1000 pemain lainnya. Dengan kata lain, tidak ada yang spesial dari pemain baru itu, dia hanyalah pemain acak lainnya. Semoga itu masuk akal.
Uwat

Jawaban:

10

Ini adalah contoh yang bagus untuk menggambarkan perbedaan antara pendekatan inferensialis dan Bayesian.

Respons saya yang pertama dan sederhana: Jika Anda menganggap distribusi serangan adalah binomial, Anda tidak perlu tahu apa-apa tentang 1000 pemain lain (selain mungkin Anda bisa menggunakannya untuk memeriksa asumsi binomial Anda).

Setelah Anda memiliki asumsi binomial yang jelas, perkiraan Anda sangat mudah: 3/10. Varian dari estimasi ini adalah p (1-p) / n = 0,021 yang biasa.

Pada dasarnya, 1000 pemain lain tidak relevan kecuali Anda berpikir ada sesuatu yang menarik dan non binomial tentang distribusi serangan (misalnya orang menjadi lebih baik karena mereka bermain lebih banyak permainan).

Cara Bayesian yang lebih dipertimbangkan dalam memandangnya: Atau, jika Anda tertarik menerapkan pengetahuan sebelumnya yang Anda miliki dari pemain lain dan Anda berpikir bahwa pemain baru pada dasarnya adalah sampel baru dari populasi yang sama, Anda harus memikirkannya dalam Bayesian istilah .

Perkirakan distribusi pemain sebelumnya. Untuk melakukan ini, Anda perlu melihat 1000 poin data Anda - 1000 pemain yang telah diamati, untuk masing-masing Anda memiliki perkiraan probabilitas serangan. Masing-masing dari 1000 poin ini hanya dapat mengambil satu dari 21 nilai (dari nol hingga dua puluh teguran dari dua puluh) dan Anda akan melihat distribusi di seluruh bidang. Jika Anda mengonversi skor ini ke proporsi (yaitu antara nol dan satu) distribusi ini mungkin dapat diperkirakan dengan cukup baik oleh distribusi probabilitas dari variabel acak dengan distribusi Beta.. Distribusi beta sepenuhnya ditandai oleh hanya dua parameter - katakanlah a dan b - tetapi karena parameter ini tidak benar-benar berkaitan dengan distribusi yang Anda tanyakan kepada kami (probabilitas pemain itu sendiri untuk melakukan pukulan) tetapi distribusi level yang lebih tinggi kami menyebutnya hiperparameter. Anda dapat mengembangkan perkiraan hiperparameter ini dari 1000 titik data Anda dalam salah satu dari sejumlah cara yang tidak benar-benar relevan dengan titik utama pertanyaan Anda.

Sebelum Anda memiliki informasi tentang pemain Anda, tebakan terbaik Anda untuk proporsi mencetak gol (sebut saja p) hanya akan menjadi nilai p yang paling mungkin dari distribusi Beta yang baru saja kami pasang.

Namun, kami memiliki data pemain kami sendiri, bukan hanya populasi umum! Demi Tuhan yang kita percayai, semua yang lain harus membawa data (saya akan mengaitkan kutipan ini jika saya bisa mengingat di mana saya menemukannya, maaf). Setiap kali kami mengamati pemain kami bermain game dan mendapatkan pukulan atau tidak, kami memiliki informasi baru untuk memastikan perkiraan kami mengenai proporsinya.

Salah satu hal yang rapi tentang distribusi beta sebagai distribusi probabilitas untuk suatu proporsi adalah ketika kita mengumpulkan informasi baru dari data dan membuat estimasi proporsi yang lebih baik, teori probabilitas dapat menunjukkan bahwa estimasi yang baru dan lebih baik itu juga beta. distribusi - hanya versi yang lebih terkonsentrasi. Ini karena distribusi beta adalah apa yang disebut sebagai konjugat sebelumnya ketika mencoba membuat perkiraan tentang model binomial.

Artinya, jika kita amati z dari acara yang sukses (game dengan serangan dalam kasus ini); dan distribusi sebelumnya adalah beta (a, b); distribusi posterior (adalah perkiraan distribusi probabilitas p yang diberikan baik 1000 poin data asli dan pengamatan baru dari sepuluh game) adalah beta (a + z, b + nz) atau (dalam kasus kami) beta (a + 3, b + 7). Seperti yang Anda lihat, semakin banyak data yang Anda peroleh, a dan b kurang penting. Matematika ini cukup mudah dan dalam banyak teks tetapi tidak begitu menarik (bagi saya, toh).

Jika Anda memiliki R, Anda dapat melihat contoh dengan menjalankan kode di bawah ini (dan jika Anda tidak memiliki R, Anda harus mendapatkannya - gratis dan itu luar biasa untuk membantu memikirkan masalah seperti ini). Ini mengasumsikan distribusi pemain sebelumnya dapat dimodelkan dengan beta (2,5) - ini hanya dibuat oleh saya. Pada kenyataannya, ada cara Anda dapat memperkirakan angka untuk a dan b lebih baik daripada hanya membuat 2 dan 5 karena saya pikir kurva terlihat ok.

Seperti yang akan Anda lihat jika Anda menjalankan contoh bergaya ini, estimasi titik probabilitas pemain mencetak gol, mengingat distribusi beta sebelumnya (2,5), adalah 0,29 daripada 0,30. Juga, kita dapat membuat interval kredibilitas, yang terus terang lebih intuitif dan lebih mudah dijelaskan daripada interval kepercayaan (lihat banyak pertanyaan dan diskusi di internet tentang perbedaan antara keduanya, termasuk di CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Kemudian amati pemain baru Anda; dan menghitung distribusi posterior baru untuk pemain baru. Secara efektif ini mengatakan "mengingat apa yang baru saja kita amati, di mana dalam distribusi pemain kita pikir orang ini yang paling mungkin?"

Peter Ellis
sumber
2
Saya pikir ini tidak benar. Misalkan sebagian besar (99%) orang di antara 1000 orang memiliki persentase mogok antara 5% dan 15% dan segelintir memiliki persentase mogok lebih tinggi dari 25%. Maka saya berpendapat bahwa kemungkinan besar pemain baru yang kami amati memiliki persentase pemogokan yang benar lebih rendah dari 30%, tetapi hanya "beruntung".
Uwat
ok, poin bagus - Saya telah menambahkan suntingan untuk mempertimbangkan situasi ini. Pada dasarnya Anda memiliki pernyataan yang bagus tentang masalah inferensi Bayesian.
Peter Ellis
@ Peter - semua berdebat dengan baik.
rolando2
Terima kasih atas jawaban anda. Namun, saya tidak begitu mengerti apa yang Anda maksud dengan: "Anda memerlukan distribusi aktual dari tingkat pemogokan individu yang mungkin akan menjadi semacam Beta" Bisakah Anda menjelaskan sedikit? Terima kasih
Uwat
Terima kasih, pertanyaan yang sangat bagus, saya telah memperluas jawaban saya sebagai tanggapan.
Peter Ellis