Apakah ada alternatif untuk simulasi untuk menentukan distribusi jumlah peristiwa dari dua proses Poisson non-homogen dependen?

8

Model "canggih" untuk distribusi gol yang dicetak dalam pertandingan sepak bola adalah model Dixon dan Robinson (1998) "Model Proses Kelahiran untuk Pertandingan Sepak Bola Asosiasi" yang menjelaskan dua fenomena utama:

1) Lebih banyak gol yang dicetak pada akhir pertandingan daripada di awal (dihipotesiskan karena kelelahan yang diderita oleh kedua tim)

2) Tingkat penilaian tergantung pada garis skor saat ini untuk berbagai alasan seperti tim dengan keunggulan menjadi puas diri atau tim lebih memilih untuk bermain imbang daripada mengambil risiko kehilangan dengan menang.

Model ini mengasumsikan bahwa gol yang dicetak oleh tim tuan rumah dan tandang dalam pertandingan mengikuti proses Poisson yang tidak homogen. Biarkan menunjukkan waktu yang berlalu dalam pertandingan, dinormalisasi untuk jatuh di antara dan , vektor panjang- menunjukkan waktu di mana tim tuan rumah mencetak gol dan vektor panjangkan menunjukkan waktu di mana tim tamu mencetak gol. Kemungkinan untuk pertandingan adalaht01xtHytA

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

di mana adalah angka penilaian untuk tim tuan rumah pada waktu t bergantung pada kombinasi faktor-faktor homogen waktu (mis. kemampuan menyerang tim tuan rumah versus kemampuan bertahan tim tandang, keunggulan kandang) dan faktor waktu tidak homogen (misalnya garis skor pada waktu t ). Demikian pula untuk \ mu (t) .λ(t)ttμ(t)

Kedua proses itu tergantung karena ketika suatu tim skor garis skor berubah dan angka penilaian itu sendiri tergantung garis skor.

Kemungkinan dapat dengan mudah dievaluasi dengan melakukan integrasi dalam eksponen secara numerik. Oleh karena itu sangat mudah untuk menghitung parameter model (kemampuan tim, keunggulan rumah, efek waktu, parameter garis skor, dll.) Melalui kemungkinan maksimum.

Dalam hal prediksi, jumlah bunga yang jelas adalah:

  • P(x>y) : tim tuan rumah menang
  • P(x<y) : tim tamu menang
  • P(x=y) : menggambar
  • Probabilitas garis skor tertentu, misalnyaP(x=1,y=0)
  • Probabilitas total gol dalam pertandingan, mis.P((x+y)<2.5)

Untuk menghitung jumlah ini (kira-kira) diberikan satu set parameter model, kita bisa menggunakan metode Monte Carlo untuk menghasilkan kecocokan sesuai dengan proses ini dan kemudian menghitung frekuensi setiap skor akhir. Simulasi dari proses relatif mudah, dengan menghasilkan tujuan dari proses Poisson homogen tunggal yang menyelimuti bersama dengan sampel penolakan dan kemudian mendistribusikannya ke tim tuan rumah atau tim tamu yang sesuai.

Kelemahan dari pendekatan ini, jelas, beban komputasi simulasi Monte Carlo. Pertimbangkan untuk mencoba membuat prediksi secara real-time ketika pertandingan dimainkan, yang mungkin banyak terjadi secara bersamaan, dan itu dengan cepat menjadi alasan untuk khawatir.

Pertanyaan saya, oleh karena itu, apakah ada pendekatan alternatif yang dapat kita pertimbangkan yang tidak menimbulkan seperti biaya komputasi yang tinggi (bahkan jika mereka bergantung pada perkiraan yang mengorbankan akurasi untuk kemudahan perhitungan)?


Untuk lebih jelasnya, saya tidak mencari saran (dasar) tentang bagaimana mengimplementasikan secara efisien simulasi Monte Carlo yang telah saya tulis dalam multi-threaded C, menggunakan angka acak semu yang telah dibuat sebelumnya menggunakan membuka gulungan dan mengeksploitasi eksploitasi sedikit demi sedikit untuk mencapai tingkat penerimaan yang sangat tinggi. Jika Anda berpikir masih ada ruang untuk peningkatan kinerja yang dramatis maka tentu saja saya semua telinga tetapi saya benar-benar mencari pendekatan yang berbeda secara mendasar!

M. Berk
sumber

Jawaban:

1

Itu masalah yang menarik. Saya tidak yakin telah mempermasalahkan semua maksud Anda, tetapi apakah Anda sudah memikirkan untuk merumuskan kembali beberapa masalah Anda sebagai tes hipotesis? Suka:

  • hipotesis nol H0:x>y
  • hipotesis alternatif H1:xy

dan kemudian melakukan tes rasio kemungkinan? Kemudian nilai-p yang diekstraksi memberi tahu Anda apakah H0 ditolak dengan tingkat signifikansi tertentu.

Alasan saya menyebutkan ini adalah bahwa melakukan tes rasio kemungkinan sama dengan melakukan 2 minimalisasi yang bisa jauh lebih cepat daripada integrasi MC. Namun integral di dalam exp mungkin masih memerlukan integrasi.

HTH

Tuan Renard
sumber
0

Saya pertama-tama membahas 2 masalah dengan pertanyaan:

  1. Faktor homogen waktu yang disebut menghalangi proses dari menjadi Poisson, karena jumlah gol dalam beberapa interval waktu tidak terlepas dari jumlah tujuan sebelumnya. Dengan kata lain, laju transisi tergantung pada keadaan. Bahkan artikel yang ditautkan (H.7) menyebut setiap proses sebagai proses kelahiran, mereduksi hanya menjadi proses Poisson yang homogen ketika intensitasnya konstan.

  2. x!dan kamuharus dikeluarkan dari kemungkinan, seperti dalam Persamaan. (3.5) dari artikel yang ditautkan. Agaknya, OP berpikir Persamaan. (3.5) memberikan kemungkinan kecocokan dengan beberapa set waktu antar-unordered, yang harus dibagi dengan jumlah permutasi set untuk mendapatkan kemungkinan untuk set yang dipesan. Ini tidak perlu, dan akan salah bahkan jika Persamaan. (3.5) adalah kemungkinan untuk set tidak teratur, karena intensitas tergantung waktu akan menghasilkan probabilitas yang berbeda untuk setiap pemesanan.y!

Kemudian untuk menjawab pertanyaan tentang distribusi garis skor, saya akan menunjukkan bahwa meskipun tidak disebutkan oleh artikel terkait, garis skor dapat dimodelkan sebagai proses kelahiran-kematian :

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
Persamaan pertama adalah keseimbangan populasi atau persamaan induk, yang solusinya telah luas dipelajari, misalnya oleh Feller. Saya tidak percaya ada solusi analitik secara umum, sedangkan solusi numerik membutuhkan pemotongan maksimum dan . Apa yang maksimum untuk digunakan tergantung pada probabilitas yang akan dihitung dari . Misal hanya membutuhkan maksimum , membutuhkan maksimum 2, sedangkan ,xypx,y(t)p1,0(t)x=1P(x+y<2.5)P(x>y)P(y<x), dan semua membutuhkan maxima yang cukup besar sehingga dan dapat diabaikan.P(x=y)px>max,ypx,y>max

Banyak solusi numerik yang mungkin, misalnya metode beda / elemen / spektral. Jika maxima besar diperlukan, perkiraan persamaan perbedaan dengan persamaan diferensial dalam kontinu danxy mungkin lebih efisien.

Berikut adalah beberapa kode Mathematica yang dapat digunakan sebagai templat, dengan maxima, , dan akan ditentukan:λx,y(t)μx,y(t)

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
usang
sumber